近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻碍英伟达前行。GB200和B200发布后仅6个月,英伟达宣布将推出全新的GPU GB300和B300。这看似循序渐进,却是高效迭代。全新GPU为大模型的推理与训练性能带来了巨大提升,对大模型公司及存储供应商而言,无疑是一份巨大的礼物。
B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)上的一个全新流片。通过调整设计,以专用于计算芯片,使得B300浮点运算比B200高50%,热设计功耗分别达到1.4KW和1.2KW,比GB200和B200分别为1.2KW和1KW更高。此外,内存从8-Hi升级到12-Hi HBM3E,每个GPU容量增加至288GB,但引脚速度保持不变,因此每个GPU内存带宽仍然为8TB/s。不过三星并未收到黄仁勋带来的礼物,因为至少在未来9个月里,他们都不会接收到GB200或GB300订单。
此更新背后,是对OpenAI O3更高推理性能要求的满足。在O3中采用KVCache技术优化模型推理能力,即通过缓存注意力机制中的键(Key)与值(Value),减少冗余计算,从而提高模型推理速度。关键在于缓存之前数据,只对新输入Token进行计算,所以对缓存性能提出了更高要求。
下图展示了不同批处理大小下使用H100与H200两种GPU处理长序列时,大型开放源代码模型Llama3.1405B在FP8精度下的处理速度。在1000Token输入、19000Token输出模拟OpenAI o1与o3模式思维链的情况下比较了两者的表现。
H100升级至H200两个改进:内存更强劲、速度更快。在所有可比较批处理中交互效率通常提高43%;运行较高批处理但成本降低三倍;内存容量提升,在多方面产生影响。
简而言之,加强内存容量可以缩短请求响应时间,为用户提供更加流畅体验,并可能增加付费意愿。而且,这样的变化能显著提升头部模型毛利率,而压缩落后的竞争者毛利率。这对于企业来说尤其重要,因为它们需要最大限度地利用他们最有价值资源来赚取溢价收入,并保护自己的市场地位。
然而,不仅英伟达能够增强内存容量,还有ASIC厂商如AMD等也能实现这一点,而且AMD可能占据优势,其MI系列产品拥有192GB、256GB甚至288GB的大容量记忆体,与英伟达相比具有更多选项。此外,由于NVL72使得72个GPU共享相同问题且延迟极低,它们被认为是加速器领域唯一拥有这样的交换连接方式,以及支持全面约简操作的设备,这使得NVG-72平台上许多关键功能获得显著改善:
更好的交互性导致思维链延迟降低。
通过分散KVCache实现更长思维链以增强智能。
相比典型服务器,更好的扩展性意味着成本进一步降低。
在同一问题上搜索更多样本以提高准确性,最终提升整个系统性能。
因此,在长度超越10万token以上且在大量工作负载中进行时,NVL72提供了远超过之前十倍以上的推理性价比,对经济效益至关重要。
最后,我们必须承认这一转变给予原先计划上市时间、架构类型、冷却解决方案以及电源密度所需重大调整的大型客户造成了一定的困扰。而这些客户往往习惯于寻求成本优化,从CPU到网络再到螺丝和金属板各方面考虑。但亚马逊则是个例外,他们选择了定制化配置,而不是寻找最合适方案。这导致他们不得不使用NVL36而非NVL72架构,因为无法像Meta或谷歌等公司那样部署该架构,这意味着每块晶片成本更加昂贵,因为涉及更多复杂组件,如背板及其它内容。此次更新为亚马逊打开了一扇门,让他们能够自定义主板设计,同时随着水冷系统普及以及2025年第三季度预计支持HVM K2V6 400G NIC,该公司还能采用NVL72结构,从而进一步利用这种创新技术,以保持竞争力并继续领导行业发展方向。