当前位置：首页 > 智能输送方案 > 英伟达B300数字芯片的AI加速器自然界的供应链革新者

英伟达B300数字芯片的AI加速器自然界的供应链革新者

智能输送方案
2025-05-13 05:29
0

近日，黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题，英伟达的Blackwell GPU曾多次传出延迟发布的消息，但这并未阻止英伟达持续推进产品更新。在GB200和B200发布6个月后，英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个循序渐进的过程，但实际上，这是非常高效的迭代。

全新GPU为大模型的推理和训练性能带来了巨大的提升，对于大模型公司和存储供应商来说，无疑是一份巨大的圣诞礼物。B300是台积电4NP工艺（英伟达定制工艺，属于5nm制程节点的一部分）节点上的一个全新流片。定制化工艺做了调整设计，专用于计算芯片，使得B300浮点运算比B200高50%，GB300和B300的热设计功耗分别达到1.4KW和1.2KW，比GB200和B200低。

此外，B300内存从8-Hi（8层堆叠）升级到12-Hi HBM3E，每个GPU容量增加到288GB，但引脚速度保持不变，因此每个GPU内存带宽仍然是8TB/s。不过，由于三星没有收到黄仁勋带来的礼物，他们至少在未来9个月内不会接到GB200或GB300订单。

GPU卷内存背后的，是大模型下一场战事“推理”。英伟达改进GPU内存，是为了满足OpenAI O3对推理性能更高要求。OpenAI O3采用KVCache技术优化模型推理能力，即通过缓存注意力机制中的键（Key）与值（Value），减少冗余计算，从而提高模型推理速度。这涉及缓存之前数据，只对新输入Token进行计算，所以对缓存性能提出了更高要求。

图表展示了不同批处理大小下，以H100与H200两种GPU处理长序列时，大型开放源代码语言Llama 3.1405 B在FP8精度下的处理速度。在1000 Token输入设置中模拟OpenAI o1与o3思维链输出19000 Token。此图显示H100升级至H200两个改进：更多内存、高速率操作。在所有可比较批处理中交互效率通常提高43%；运行更高批处理但成本降低三倍；多维度影响使得请求响应等待时间缩短，将提升用户体验并增加付费意愿。

对于NVL72，全互联交换连接、极低延迟、分散KVCache实现更长思维链、扩展性成本较低，使其成为关键功能变化之一。此类加速器在同一问题上搜索样本以提高准确性，最终提升模型性能，因而NVL72相比之前提供10倍以上增强智能支持，同时能以10万Token长度进行长时间连续思考，不仅经济有效，而且可以使用大量样本来提高准确性。

然而，在这种「转身」背景下，一些供应链伙伴遭遇冲击，其中纬创资通失去了原有的核心业务份额，而工业富联虽然也失去了一部分业务，却因为独家生产SXM Puck模块获得补偿。此外，由于VRM需求由超大规模厂商直接采购，以及800G ConnectX-8 NIC横向扩展带宽翻番，有关市场信息指出自第三季度开始，大量订单转向了GB300，并且截至最近所有主要客户都决定采用该款产品。这揭示了一系列因素导致市场趋势发生重大变化，其中包括产品发布时间、机架设计、新冷却技术以及电源密度显著增长，加之各种组件价格波动，都促使这些顶尖企业重新评估他们现有系统结构，并寻求更加优化配置以适应不断变化的大数据时代环境。