近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达持续推进其技术发展。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能看起来像是一个循序渐进的过程,但实际上,这是一种非常高效的迭代。全新GPU为大模型的推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。
B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。定制化工艺做出了调整设计,专用于计算芯片,使得B300浮点运算比B200高50%,GB300和B300的热设计功耗分别达到1.4KW和1.2KW,而相对之下,GB200和B200的热设计功耗分别为1.2KW和1KW。此外,B300内存从8-Hi(8层堆叠)升级到12-Hi HBM3E,每个GPU的HBM容量增加到288GB,但引脚速度保持不变,所以每个GPU内存带宽仍然是8TB/s。不过,由于三星没有收到黄仁勋带来的礼物,他们至少在未来九个月内都不会有机会获得GB200或GB300订单。
在自然界中,大型模型如OpenAI O3通过KVCache技术优化了其推理能力,即通过缓存注意力机制中的键(Key)与值(Value),减少冗余计算,从而提高模型推理速度。关键就是缓存之前旧数据,只对新输入Token进行计算,因此对于缓存性能提出了更高要求。在不同批处理大小下使用H100与H200两种GPU处理长序列时,大型开源模型Llama3.1405B在FP8精度下的处理速度展示了显著提升。
H100升级至H200两个改进是:内存更强大、速度更快。这使得交互效率通常提高43%,运行时间也被缩短了。此外,更高内存容量会产生多方面影响,如请求响应之间等待时间较长的情况,在某些情况下可能导致糟糕用户体验。如果能够缩短推理时间,将增加用户付费意愿。
随着硬件产品能实现三倍变化,比摩尔定律或其他所有硬件改进速度都要快得多的大型模式竞赛中,最具能力差异化的大型模式能够收取显著溢价,其头部模式毛利率超过70%,而落后模式毛利率低于20%。
然而,不仅英伟达,还有其他公司如ASIC可以提供相同水平别样的解决方案,而且事实上AMD可能处于更有利的地位,其MI系列产品提供192GB、256GB甚至288GB内存容量,这些产品均超过英伟达标准。此外,NVL72架构使72个GPU能够共享同一问题,并且延迟极低,它们为许多关键功能带来了质性的改变,如思维链延迟降低、分散KVCache以实现更长思维链等,使成本更加合适。
此外,在服务器层面,由于产品上市时间、机架配置冷却系统以及电源功率密度重大变化,大厂无法对原先版本进行太多改变,这导致Meta放弃希望同时采购博通及英伟达网络接口卡,而选择完全依赖单一来源——即英国亚马逊成为例外,因为他们采用定制策略“”选择次优配置。但由于不能部署NVL72架构,他们不得不使用NVL36,每个GPU成本因此变得更加昂贵。而随着更多组件采用水冷,以及K2V6 400G NIC支持2025年第三季度支持硬件虚拟化管理,这使亚马逊也有机会利用NVL72架构并最终转变其操作方式。