近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达持续推进其技术发展。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能看起来像是一个循序渐进的过程,但实际上,这是一种非常高效的迭代。全新GPU为大模型的推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。
B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。定制化工艺做出了调整设计,专用于计算芯片,使得B300浮点运算比B200高50%,GB300和B300的热设计功耗分别达到1.4KW和1.2KW,而相对之下,GB200和B200的热设计功耗分别为1.2KW和1KW。此外,B300内存从8-Hi(8层堆叠)升级到12-Hi HBM3E,每个GPU的HBM容量增加到288GB,但引脚速度保持不变,所以每个GPU内存带宽仍然是8TB/s。不过,此举也意味着至少在未来9个月内,大型电子公司三星都无法获得GB200或GB300订单。
此更新背后,是AI领域的大模型战争中“推理”的下一场战役。而这一变化,也被视为OpenAI O3对推理性能更高要求的一个回应。这项技术通过缓存注意力机制中的键(Key)与值(Value),以减少冗余计算,从而提高模型推理速度。但关键在于缓存之前旧数据,只对新输入Token进行计算,因此对于缓存性能提出了更高要求。
随着H100升级至H200两个改进——内存更高、速度更快——处理长序列时,在FP8精度下的处理速度有显著提升。在所有可比较批处理中交互效率通常提高43%;同时运行比H100更多批处理但成本降低了3倍。此外,更大的内存容量在多方面产生影响,如请求响应之间等待时间长导致糟糕用户体验,如果能缩短则会增加付费意愿,而成本差异巨大,为硬件产品实现了超越摩尔定律、黄氏定律及其他硬件改进速度的地方。
然而,不仅英伟达可以提供这样的提升,其竞争者AMD同样具备这样的能力,并且在某些方面处于优势,比如MI系列产品拥有192GB、256GB甚至288GB的大容量内存。而NVL72系统使得72块GPU能够共享资源并且延迟极低,它们改变了许多关键功能,如思维链延迟降低、分散KVCache以实现更长思维链,以及成本更加合理。
这些改动引发了一波震动,让原有的供应链格局发生变化。原本提供整个BIanca板包括黑暗森林图形处理单元、大力神中央处理单元及512GbpsLPDDR5X记忆体VRM集成印刷电路板上的设备组合等,同时包括交换托盘铜背板,以满足客户需求。但现在客户需要自行采购这些组件,而Axiado取代Aspeed成为混合记忆立方体(HMC)供应商。此外,由美光生产LPCAMM模块替换LPDDR5X焊接形式使用,将允许更多OEM/ODM参与制造计算主板部件。
尽管如此,有些厂家如纬创资通失去了原来的市场份额,因为他们失去了BIanca板生产机会,而工业富联虽然也失去了一部分市场份额但因独家制造SXM Puck模块而获得补偿。此外,与之前不同的是,现在VRM由超大规模厂商或者OEM直接从VRM供应商处采购,而且800G ConnectX-8 NIC网络接口卡使得横向扩展带宽翻倍,同时取消了PCIe Gen 6标准支持,这些改变均影响到了硅谷的大厂们,他们决定放弃基于博通与英伟达双重渠道获取网络接口卡,以完全依赖于英伟达解决方案。这一转变加速了Meta放弃自定义网卡选择全面采用英伟达解决方案的事实,并促使Google遵循相同路径加入该阵营。