近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达继续前进。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。外界似乎看起来像是一个循序渐进的过程,但实际上,这是一种非常高效的迭代方式,全新GPU为大模型推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。
B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。定制化工艺做了调整设计,以便专用于计算芯片,使得B300浮点运算比B200提高50%,而热设计功耗分别达到1.4KW和1.2KW,比GB200和B200更高。
此外,B300内存从8-Hi(8层堆叠)升级到12-Hi HBM3E,每个GPU的HBM容量增加到288GB,但引脚速度保持不变,所以每个GPU内存带宽仍然是8TB/s。不过,三星并没有收到黄仁勋带来的礼物,因为至少在未来9个月里,他们都不会获得GB200或GB300订单。
英伟达改进GPU内存背后的原因,是为了满足OpenAI O3对推理性能更高要求。OpenAI O3采用KVCache技术优化模型推理能力,即通过缓存注意力机制中的键(Key)与值(Value),减少冗余计算,从而提高模型推理速度。关键在于缓存之前旧数据,只对新输入Token进行计算,因此对缓存性能提出了更高要求。
下图展示了不同批处理大小下使用H100与H200两种GPU处理长序列时,大型开源模型Llama3.1405b在FP8精度下的处理速度。在输入设置为1000Token,输出19000Token的情况下模拟OpenAI o1与o3模型中的思维链。
H100升级至H200两个改进:内存更多,更快。
由于更多内存带宽(H200 4.8TB/s vs H100 3.35TB/s),在所有可比较批处理中交互效率通常提高43%。
运行比H100更高批处理但成本降低了三倍。
内存容量提升,在多方面都会产生影响。
由于请求响应之间等待时间很长,可能会导致糟糕用户体验。如果能缩短推理时间,这将增加用户付费意愿。
成本差异之大,在某种程度上,比摩尔定律、黄氏定律或其他硬件改进速率都要快得多。在大型模型竞赛中,最具能力差异化的大型模型能够收取显著溢价,而头部模式毛利率超过70%,落后模式毛利率低于20%。
当然,不仅英伟达,还有ASIC可以提供类似的提升,并且事实上AMD可能处于优势地位,其MI系列产品如MI325X具有256GB内存在手,同时保持引脚速度不变,将每个设备的总带宽固定为16TB/s。此外,一些OEM/ODM现在也有机会参与SXM Puck生产,如纬创资通失去了原有的位置。而工业富联虽然失去了同样的市场份额,但他们作为独家制造商取得了成功,并且抵消掉损失部分收入。此外,由于VRM供应商变化,以及800G ConnectX-8 NIC使InfiniBand以太网横向扩展加倍,此举直接影响到了硅谷的大厂们。这也表明自第三季度开始大量订单转向了GB300,而截至最近所有主要厂商决定使用该平台。一部分原因是其性能以及更大的记忆体空间,一方面则是因为英国已经控制住这些公司的大规模训练命运。