英伟达B300:AI推理的「加速器」供应链的「下马威」,与骁龙8+相比,更是让人称奇。它不仅提升了GPU内存容量,还优化了性能,使得AI模型在推理和训练方面获得了巨大提升,为大型数据公司带来了意想不到的圣诞礼物。此外,B300采用台积电4NP工艺,提供更高的浮点运算能力和热设计功耗,并且内存容量从8-Hi升级到12-Hi HBM3E,每个GPU增加288GB,但保持相同的引脚速度。
此举背后的目的是为了满足OpenAI O3对推理性能更高要求。通过缓存注意力机制中的键(Key)和值(Value),可以减少冗余计算,从而提高模型推理速度。H200相比H100在批处理大小上有所提升,不仅成本降低三倍,而且交互效率提高43%。
然而,这并不意味着英伟达是唯一能够提供高内存容量解决方案的一家公司。ASIC也能做到,而且AMD在这方面可能占据优势,比如MI300X、MI325X、MI350X等产品都拥有更高的内存容量。而GB200 NVL72和GB300 NVL72则通过全互联共享内存实现极低延迟,并支持长思维链,性价比提高十几倍。
除了这些改进之外,英伟达还改变了GB300平台上的供应商策略,将VRM由原来的单一供应商转为多家厂商采购,同时引入800G ConnectX-8 NIC,以双向扩展带宽。这一切似乎是在告诉市场,从第三季度开始,大厂们已经开始大量使用GB300,而不是之前预期中会用的GB200。
最终,由于产品发布时间、机架设计、冷却系统以及电源功率密度的大幅变动,大厂无法轻易对服务器层面进行太多调整,因此Meta放弃了希望同时从博通和英伟达两方采购网络接口卡(NICs)的计划,而谷歌也决定完全依赖英伟达。这无疑显示出硅谷大厂们对于成本优化至关重要,而亚马逊作为例外,其定制化选择使其不得不使用NVL36而非NVL72,从而导致每个GPU成本更高。此时,当亚马逊能够构建自己的定制主板并采用水冷,以及K2V6 400G NIC支持HVM时,它同样可以使用NVL72架构,这将再次改变游戏规则。