近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达持续推进产品更新。在GB200和B200发布后不久,英伟达宣布将推出全新的GPU GB300和B300。外界似乎看到了一个循序渐进的发展过程,但实际上,这是高效迭代的一步骤,全新GPU为大模型的推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。
B300采用台积电4NP工艺(英伟达定制工艺),是一个全新流片设计,专用于计算芯片,使得B300浮点运算比B200高50%,而热设计功耗达到1.2KW,比GB200和B200分别为1.2KW和1KW更低。此外,内存从8-Hi升级到12-Hi HBM3E,每个GPU增加到288GB容量,但引脚速度保持不变,因此每个GPU内存带宽仍然是8TB/s。不过,三星并未收到这个礼物,因为至少在接下来的9个月内,他们都无法获得GB200和GB300订单。
此举背后的驱动力,是为了满足OpenAI O3对推理性能更高要求。OpenAI O3采用KVCache技术优化模型推理能力,即通过缓存注意力机制中的键(Key)和值(Value)减少冗余计算,从而提高模型推理速度。关键在于缓存之前数据,只对新输入Token进行计算,所以对缓存性能提出了更高要求。
全新的H100与H200相比,其两项改进是:内存更大、速度更快。在所有可比较批处理中交互效率通常提高43%,运行比H100还要更多批处理但成本降低了三倍。这意味着对于用户体验来说,更短的推理时间可能会增加他们付费意愿,而成本差异则显著影响了毛利率,在大模型竞赛中,最具能力且差异化的大型模式能够收取显著溢价。
当然,并非只有英伟达可以提供较大的内存容量。ASIC同样可以做到,而且AMD在这一方面可能处于有利地位,如MI300X 192GB、MI325X 256GB以及MI350X 288GB等产品,它们都拥有较高的内存容量。
NVL72作为一个关键组件,使得72个GPU能够共享内存在单一问题上,以极低延迟进行思维链处理。在处理相同问题时,可以搜索更多样本以提高准确性,最终提升模型性能,因此NVL72在长推理链上的性价比提升了十几倍以上。此外,由于KVCache占用大量资源,对经济效益至关重要,而NVL72能将推理解锁至10万token以上,并支持高批量操作。
随着这些改变,一些供应商面临损失,如纬创资通失去了生产BIANCA板面的机会,而工业富联虽然也失去了一部分市场份额,但其独家制造SXM Puck模块带来的收益足以抵消损失。而VRM部分由超大规模厂商或OEM直接采购,此外800G ConnectX-8 NIC使横向扩展带宽翻倍,同时取消PCIe Gen 6标准使用。此种变化给予了硅谷的大厂压力,不仅因为产品上市时间、机架冷却系统及电源功率密度等重大变革,还因为服务器层级无法太多调整导致Meta放弃博通渠道选择完全依赖英伟达网络卡;谷歌也放弃自家的网络卡选择合作。
亚马逊则例外,它采取定制化策略。但由于使用PCIe交换机与弹性织物适配器NIC,该公司不能部署NVL72必须使用NVL36,每个GPU成本因此增加。然而,与其他大厂不同,大厂现在可以定制主板冷却系统等功能,这使亚马逊也有机会构建自己的定制主板,并计划2025年第三季度支持HVM水冷,以及K2V6 400G NIC,使之能够使用NVL72架构并实现进一步优化。