近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达持续推进产品更新。在GB200和B200发布6个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个循序渐进的过程,但实际上,这是非常高效的迭代。
全新GPU为大模型的推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。定制化工艺做了调整设计,专用于计算芯片,使得B300浮点运算比B200高50%,GB300和B300的热设计功耗分别达到1.4KW和1.2KW,比起GB200和B200低400W。
此外,B300内存从8-Hi(8层堆叠)升级到12-Hi HBM3E,每个GPU内存容量增加到288GB,但引脚速度保持不变,所以每个GPU内存带宽仍然是8TB/s。不过,由于三星没有收到黄仁勋带来的礼物,他们至少在未来9个月内不会获得GB200或GB300订单。
英伟达改进GPU内存背后的原因,是为了满足OpenAI O3对推理性能更高要求。在不同批处理大小下,用H100与H200两种GPU处理长序列时,大型语言模型Llama3.1405B在FP8精度下的处理速度相差显著。当输入设置为1000Token输出19000Token时,可以模拟OpenAI o1及o3模型中的思维链。
H100升级至H200两个改进点:更高内存容量、更快速度。这意味着交互效率通常提高43%,运行更多批处理但成本降低三倍。这种提升对用户体验极为重要,因为请求响应时间短则用户满意度提高,而长则会影响付费意愿。此外,更高毛利率头部模型能实现溢价,而落后者则面临较低毛利率竞争。
除了英伟达,还有其他公司如ASIC能够提供类似的性能提升。而AMD在这一领域可能处于有利地位,其MI系列产品拥有192-288GB甚至更高容量。虽然NVL72具有共享记忆、高交互性等优势,但也存在KVCache占用大量经济资源的问题。但NV72能扩展思维链长度至10万以上token,在大批量中工作,并且提供了远超以往十倍以上优越性的价格表现。
对于客户而言,如今需要自行采购计算板以外组件,同时采用LPCAMM模块而非焊接LPDDR5X,这些变化给予OEM/ODM参与托盘供应机会,从而减少纬创资通所失去之份额,即便工业富联失去了同样份额,它们作为SXM Puck独家制造商,却因此获益匪浅。此外VRM由超大规模厂商/OEM直接采购,以支持800G ConnectX-8 NIC横向扩展带宽翻番,同时取消PCIe Gen 6启用,为市场注入稳定性与可预测性。
最后,由于产品更新、机架、冷却系统及电源密度重大变化,大厂难以对服务器进行太多改动,因此Meta放弃博通双方渠道网络卡需求转向完全依赖英伟达;谷歌选择合作取代自研方案。这一切都显示出硅谷各大厂家如何追求成本优化,从CPU到网络再到螺丝金属板;亚马逊除了一些特例,则被迫使用次优配置导致每个GPU成本增重,因其无法构建自己的定制主板。而随着K2V6 400G NIC支持硬件虚拟化管理,该问题即将得到解决,让亚马逊亦能利用NVL72架构进行最大限度发挥其设备能力。