近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达持续推进产品线。紧接着GB200和B200发布后不久,英伟达宣布将推出全新的GPU GB300和B300。这一系列举措看似循序渐进,但实际上是极高效率的迭代,全新GPU为大模型训练与推理性能带来巨大的提升,对于大模型公司和存储供应商而言,无疑是一份宝贵的圣诞礼物。
B300采用台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分),是一个全新的流片设计。通过调整设计,为计算芯片提供专属优化,使得B300在浮点运算方面相比B200提升50%。同时,其热设计功耗达到1.2KW,与GB200和B200相比分别为1.2KW和1KW。此外,内存从8-Hi升级到12-Hi HBM3E,每个GPU的HBM容量增加至288GB,但保持相同的引脚速度,因此每个GPU内存带宽仍然为8TB/s。不过,在未来至少9个月内,三星尚未收到任何GB200或GB300订单。
此更新背后,是对OpenAI O3更高要求的大模型下一步战略。在满足O3对推理性能更高要求时,英伟达改进了GPU内存,这正是为了满足OpenAI o1和o3模型中的KVCache技术优化所需。这项技术通过缓存注意力机制中的键值,以减少冗余计算,从而提高模型推理速度。关键在于缓存之前数据,只对新输入Token进行计算,因此对于缓存性能提出了更高要求。
随着H100升级至H200两个改进:内存更强、速度更快。在所有可比较批处理中交互效率通常提高43%,运行时间缩短了。而成本降低到了原来的三分之一,这在某种程度上,比摩尔定律或其他硬件改进都要快得多。在竞争激烈的大型语言模型市场中,最具能力差异化的大型语言模型能够收取显著溢价,而头部企业毛利率超过70%,落后者则低于20%。
虽然英伟达不是唯一能提高内存容量公司,但ASIC同样可以实现这一点,而且AMD可能在这个领域有优势,如MI300X 192GB、MI325X 256GB以及MI350X 288GB等产品。但是NVL72使得72个GPU能够共享一个问题,并且延迟极低,没有其他加速器能实现这样的全互联交换连接及操作简化功能,它们为许多关键功能带来了质变:
更好的交互性使思维链延迟更低。
分散KVCache以实现长思维链(增强智能)。
在典型服务器与之相比,更好批量大小扩展,使成本降低。
处理同一问题时搜索更多样本以提高准确性,最终提升性能。
因此NVL72在长推理链上的实用性远超之前,一般情况下其推理价格效益提升10倍以上,可以处理10万token长度甚至更多,同时保持良好批量处理能力。
这些变化反映了英伟达“转身”,也震动了整个供应链网络。在设计上,有很大的不同,对于GB300,不再提供整个BIANCA板,而只提供SXM Puck模块上的B300及其封装Grace CPU,以及由Axiado提供替代Aspeed HMC组件。此外,由客户自行采购剩余组件,而非焊接LPDDR5X,将使用LPCAMM模块,而美光将成为主要供应商。
向SXM Puck转变,为更多OEM/ODM参与供应计算托盘创造机会,以往只有纬创资通及工业富联可以生产BIANCA板。在这次调整中纬创资通失去了BIANCA板份额最大输家地位;工业富联虽然失去了一些份额但作为独家制造商赚回损失并获得补偿。而目前还没有实际下单给其他SXM Puck模块制造商的情况出现。
另外VRM(电压调节模块)会有一些VRM存在于SXM Puck上,但是绝大部分VRM将由超大规模厂商或者OEM直接从VRM供应商处采购。此外,还包括800G Connect-X NIC网络卡,该设备使InfiniBand和以太网横向扩展带宽翻倍,因为其市场信息表明,大量订单已经转移到了最终用户手中,其中原因既包括更高性能、高质量资源,也因为英国已控制该行业命运力量影响导致Meta放弃博通两边获取NICs希望完全依赖英国;谷歌放弃自建NIC选择合作关系解决方案;亚马逊因无法构建NVL72架构只能选择较次优配置模式而面临挑战。