黄仁勋带来的圣诞礼物,让全球科技界提前庆祝了节日。英伟达B300的推出,被视为AI推理的「加速器」,而非供应链的「下马威」。在GB200和B200发布后不久,英伟达宣布将推出全新的GPU GB300和B300。外界以为这是一个循序渐进的过程,但实际上,这是英伟达高效迭代的一部分。
B300采用台积电4NP工艺(5nm制程节点),提供全新流片设计,专用于计算芯片,使得浮点运算比B200提升50%。热设计功耗分别达到1.4KW和1.2KW,与GB200和B200相比更高。这次升级也包括内存从8-Hi升级到12-Hi HBM3E,每个GPU容量增加到288GB,但引脚速度保持不变。
这背后的原因是为了满足OpenAI O3对推理性能更高要求。OpenAI O3采用KVCache技术优化模型推理能力,通过缓存之前数据仅对新输入Token进行计算,从而提高模型速度。此技术对缓存性能提出了更高要求。
H100升级至H200两个改进:内存更大、速度更快。在所有可比较批处理中,交互效率通常提高43%,运行成本降低三倍。内存容量提升在多维度产生影响,可以缩短请求与响应之间等待时间,从而提升用户体验并增加付费意愿。
然而,不仅英伟达能提高内存容量,ASIC同样可以,并且AMD可能处于优势地位,其MI系列产品具有192GB、256GB、288GB等较大的内存容量。而NVL72使得72个GPU能够共享内忆延迟极低,为实现关键功能带来了显著变化,如思维链延迟低、长链支持增强智能成本效益十几倍增长。
对于GB300设计有很大改动,对于传统BIanca板,只提供“SXM Puck”模块上的B300以及Grace CPU封装,而非整个BIanca板。此外,将使用Axiado提供的HMC替换Aspeed,以及由美光或其他公司生产LPCAMM模块取代焊接LPDDR5X。
这些变化为OEM/ODM参与计算托盘制造创造机会,同时纬创资通失去了BIanca板份额,而工业富联虽然失去了一部分,但因为成为SXM Puck独家制造商收入完全抵消损失。而VRM将由超大规模厂商或OEM直接采购,以800G ConnectX-8 NIC横向扩展带宽翻番,此前取消了ConnectX-8并放弃启用PCIe Gen 6标准。
市场信息表明,尽管有延期发布给硅谷大厂造成影响,但从第三季度开始大量订单转向了GB300。一方面是性能和内存的大幅提升,一方面是英伟达控制了模型训练命运。大厂如Meta放弃博通自家的网络卡转向英伟达合作,而谷歌放弃自家的选择与英伟达合作。
亚马逊例外,它定制化让他们“选择”次优配置,由于无法部署NVL72必须使用NVL36导致每个GPU成本增加。但随着更多组件采用水冷以及K2V6 400G NIC2025年第三季度支持HVM,亚马逊同样可以构建自己的定制主板并使用NVL72架构。