近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达持续推进产品更新。在GB200和B200发布6个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个循序渐进的过程,但实际上,这是非常高效的迭代。
全新GPU为大模型的推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。定制化工艺做了调整设计,专用于计算芯片,使得B300浮点运算比B200高50%,GB300和B300的热设计功耗分别达到1.4KW和1.2KW,比GB200和B200低。
此外,B300内存从8-Hi(8层堆叠)升级到12-Hi HBM3E,每个GPU容量增加到288GB,但引脚速度保持不变,因此每个GPU内存带宽仍然是8TB/s。不过,由于三星没有收到黄仁勋带来的礼物,他们至少在未来9个月内不会接到GB200或GB300订单。
GPU卷内存背后的,是大模型下一场战事“推理”。英伟达改进GPU内存,是为了满足OpenAI O3对推理性能更高要求。OpenAI O3采用KVCache技术优化模型推理能力,即通过缓存注意力机制中的键(Key)与值(Value),减少冗余计算,从而提高模型推理速度。这涉及缓存之前数据,只对新输入Token进行计算,所以对缓存性能提出了更高要求。
图表展示了不同批处理大小下,以H100与H200两种GPU处理长序列时,大型开放源代码语言Llama 3.1405 B在FP8精度下的处理速度。在1000 Token输入设置中模拟OpenAI o1与o3思维链输出19000 Token。此图显示H100升级至H200两个改进:更多内存、高速率操作。在所有可比较批处理中交互效率通常提高43%;运行更高批处理但成本降低三倍;多维度影响使得请求响应等待时间缩短,将提升用户体验并增加付费意愿。
对于NVL72,全互联交换连接、极低延迟、分散KVCache实现更长思维链、扩展性成本较低,使其成为关键功能变化之一。此类加速器在同一问题上搜索样本以提高准确性,最终提升模型性能,因而NVL72相比之前提供10倍以上增强智能支持,同时能以10万Token长度进行长时间连续思考,不仅经济有效,而且可以使用大量样本来提高准确性。
然而,在这种「转身」背景下,一些供应链伙伴遭遇冲击,其中纬创资通失去了原有的核心业务份额,而工业富联虽然也失去了一部分业务,却因为独家生产SXM Puck模块获得补偿。此外,由于VRM需求由超大规模厂商直接采购,以及800G ConnectX-8 NIC横向扩展带宽翻番,有关市场信息指出自第三季度开始,大量订单转向了GB300,并且截至最近所有主要客户都决定采用该款产品。这揭示了一系列因素导致市场趋势发生重大变化,其中包括产品发布时间、机架设计、新冷却技术以及电源密度显著增长,加之各种组件价格波动,都促使这些顶尖企业重新评估他们现有系统结构,并寻求更加优化配置以适应不断变化的大数据时代环境。