近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达持续推进其技术发展。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。这似乎是一种循序渐进的策略,但实际上,这是对市场需求的一种高效响应。全新GPU为大模型训练和推理性能带来了巨大的提升,对于依赖这些模型的大型公司来说,无疑是一个巨大的礼物。
B300采用台积电4NP工艺(英伟达定制工艺),这是5nm制程节点的一个改良版本。这一定制化设计专为计算芯片而设计,使得B300在浮点运算方面相比于B200有50%的提升。与此同时,GB300和B300的热设计功耗分别达到1.4KW和1.2KW,而GB200和B200则分别为1.2KW和1KW。
此外,内存从8-Hi升级到12-Hi HBM3E,每个GPU的HBM容量增加到了288GB,但引脚速度保持不变,因此每个GPU内存带宽仍然是8TB/s。不过,由于三星尚未收到任何订单,他们至少在未来9个月内不会获得GB200或GB300订单。
除了提高GPU内存性能之外,英伟达还改进了OpenAI O3对推理性能更高要求所需的心智加速器。在OpenAI O3中采用KVCache技术优化模型推理能力,即通过缓存注意力机制中的键(Key)与值(Value)减少冗余计算,从而提高模型推理速度。关键在于缓存之前数据,只对新输入Token进行计算,所以对于缓存性能提出了更高要求。
随着H100升级到H200两个改进:内存容量增加、速度加快。在所有可比较批处理中交互效率通常提高43%,运行比H100更多批处理但成本降低三倍。此外,更高内存容量会影响多维度产生影响,如请求响应之间等待时间长可能导致糟糕用户体验。如果能缩短推理时间,将增加用户支付意愿。而成本差异较大,在硬件产品中实现三倍变化,比摩尔定律或其他硬件改进都要快得多,在竞争激烈的大模型市场中,最具能力且差异化的大型公司能够收取显著溢价,其毛利率超过70%,落后者毛利率低至20%。
然而,不仅英伟达可以提供更高内存容量,也有ASIC同样做得到,而且AMD可能处于优势地位,如MI300X 192GB、MI325X 256GB以及MI350X 288GB产品各自拥有更高容量。尽管如此,NVL72使得72个GPU能够共享内存在一个问题上工作,并具有极低延迟,它们提供了性价比远超以往10倍以上尤其是在长链上的应用中。
最后,与典型8个GPU服务器相比,更好的扩展性使成本降低,同时也允许搜索更多样本以提高准确性,最终提升模型表现。而NVLL72在长链上可扩展至十万token以上,并且支持高批处理规模。此时,我们看到的是供应链震动,因为尽管英国瓦没有改变它追求最大潜力的决心,但它已经向SXM Puck模块转变,而不是整个BIanca板,这给予了OEM/ODM参与托盘生产更多机会。一旦SXM Puck成为主流,那么BIanca板生产商如纬创资通将面临损失,而工业富联虽然失去了BIanca板份额但因为独家制造SXM Puck模块而获益双重。