黄仁勋的圣诞礼物:英伟达B300与中国芯片十大龙头企业的AI推理挑战
近日,黄仁勋让全球科技界提前庆祝了一个非凡的圣诞节。英伟达在GB200和B200发布后仅半年,就宣布推出全新的GPU GB300和B300。这不只是一个循序渐进的产品迭代,而是一个对大模型训练和推理性能提升巨大的革新。在这个过程中,英伟达展示了其在AI加速器领域无与伦比的领导地位。
B300是基于台积电4NP工艺(5nm制程节点)的全新流片设计,它提供了比B200高50%的浮点运算性能,并且热设计功耗达到1.2KW。内存容量从8-Hi升级至12-Hi HBM3E,每个GPU增加到288GB,但保持相同的引脚速度,这意味着每个GPU内存带宽仍然为8TB/s。然而,对于三星来说,这并不是好消息,因为至少在未来9个月内,他们将不会获得GB200和GB300订单。
英伟达改进GPU内存背后的核心驱动力,是为了满足OpenAI O3对推理性能更高要求。通过KVCache技术优化模型推理能力,减少冗余计算,从而提高模型处理速度。此外,全互联交换连接使得72个GPU能够共享内存、延迟极低,为实现关键功能带来了质变。
此外,NVL72还能实现更长思维链(增强智能),成本效益比提高10倍以上,在长推理链上尤其显著。尽管如此,对经济效益致命的是KVCache占用大量内存,但NVL72却能扩展到10万以上Token并在高批量中进行。
英国拉德转身之举,以及供应链震动
英伟达对GB300平台进行了重大调整,不再提供整个Bianca板,只提供“SXM Puck”模块上的B300以及Grace CPU封装。此外,与HMC由美国初创公司Axiado提供替换Aspeed,以往只需焊接LPDDR5X,现在将采用LPCAMM模块,而美光或将成为这些模块主要供应商。
向SXM Puck转变为更多OEM/ODM参与计算托盘机会,以往只有纬创资通和工业富联可以生产Bianca板。在这次供应商调整中,纬创资通失去了Bianca板份额,而工业富联虽然失去了一部分份额,却因独家制造SXM Puck模块而得到补偿。不过目前尚未有其他SXM Puck模块供应商实际下单情况出现。
此外,将VRM由超大规模厂商或OEM直接采购取代,也是另一种重大变化。此外,还有一项重要更新,即800G ConnectX-8 NIC网络接口卡,使InfiniBand及以太网横向扩展带宽翻番。而由于市场影响,上市时间导致取消ConnectX-8放弃PCIe Gen 6启用等措施发生改变。
市场信息显示,由于产品上市时间、机架、冷却系统以及电源功率密度重大变化,大厂们无法太多地更改服务器层级,因此Meta放弃博通两家的网络接口卡计划完全依赖英伟达;谷歌也选择与英伟达合作,而亚马逊则因为定制化选择次优配置不得不使用NVL36而非预期中的NVL72,因此每个GPU成本较高。