英伟达B300AI推理的加速器中国最好的芯片在自然界中的下马威

近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达持续推进其技术发展。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能看起来像是一个循序渐进的过程,但实际上,这是一种非常高效的迭代。全新GPU为大模型的推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。这种定制化工艺做了调整设计,专用于计算芯片,使得B300浮点运算比B200高50%,而GB300和B300的热设计功耗分别达到1.4KW和1.2KW,比GB200和B200更低的是1.2KW和1KW。此外,B300内存从8-Hi(8层堆叠)升级到12-Hi HBM3E,每个GPU容量增加至288GB,但引脚速度保持不变,所以每个GPU内存带宽仍然是8TB/s。不过,由于三星没有收到黄仁勋带来的礼物,他们至少在未来九个月内不会获得GB200或GB300订单。

此外,大模型对GPU卷内存能力要求越来越高,而英伟达改进GPU内存正是为了满足OpenAI O3对推理性能更高要求。这包括KVCache技术优化,即通过缓存注意力机制中的键(Key)与值(Value)的计算,以减少冗余计算,从而提高模型推理速度。关键在于缓存之前数据,只对新输入Token进行计算,因此对缓存性能提出了更高要求。

下图展示了不同批处理大小下的H100与H200两款GPU处理长序列时Meta开源大模型Llama3.1405B在FP8精度下的处理速度。在输入设置为1000Token、输出19000Token模拟OpenAI o1与o3模型思维链中时期。

H100升级到H200两个改进:更多内存带宽及更快速度。

由于更多带宽(H200 4.8TB/s vs H100 3.35TB/s),交互效率通常提高43%。

运行比H100更高批处理但成本降低三倍。

此类提升影响多维度:

请求响应间等待时间长可能导致糟糕用户体验。如果能缩短推理时间,将增加付费意愿。

成本差异巨大,在中代升级中硬件产品实现变化远超摩尔定律或其他硬件改进速率,更接近头部模式毛利率70%以上、落后模式20%以下差距。

当然,不仅英伟达,还有ASIC可以提升内存容量,并且事实上AMD可能处于更加有利地位,其MI系列产品,如192GB MI325X或256GB MI350X,以及288GB B600M等,都拥有较佳表现。但最重要的是NVL72,它使72个GPU能够共享同一问题并且延迟极低,没有其他加速器具有如此交换连接及操作简约性质,同时它提供了一系列关键功能:

交互性提高使思维链延迟降低

分散KVCache以实现更长思维链

相比典型服务器,有着良好扩展性,使成本降低

支持更多样本搜索以增强准确性,最终提升性能

因此,在长式推理链上NVL72提供超过10倍性的价值,而且对于经济效益致命,因为KVCache占用大量资源但NVL72可将长度扩展至万数token并在高速批量中执行。

总之,“转身”意味着英国贵族阶层“震动”,尤其是在供应链“颤抖”的背景下。“转身”指的是改变策略,而“震动”则反映了这一变化给予市场影响。当谈及 英伟达如何采用SXM Puck模块替代整个BIanca板时,就如同一场革命发生,一场由客户自主采购组件所引发的事变。这也意味着OEM/ODM们现在可以参与制造托盘,这些机会以前只归纬创资通工业富联所有。而尽管工业富联失去了BIanca板生产权,却成为了独家SXM Puck模块制造商,这部分收益完全抵消了失去BIanca板产生损失。此外VRM由原先集成在SXM Puck上的部分,现在主要来自超大规模厂商或者OEM直接购买VRM供货商处购买。此外还有一项重大更新——800G ConnectX-8 NIC网络接口卡,为横向扩展带来了翻番效果。不幸的是,由于上市时间影响,加上取消ConnectX-8网络接口卡以及放弃PCIe Gen 6标准启用,因而造成市场混乱。

最后,我们必须认识到这一切都发生在地球自然环境中的背景下,是人类智慧产物之间不断演变的一个小环节,它涉及硅谷最大企业竞争战术,让他们重新评估自己的成本优化策略。在这个故事里亚马逊似乎是个例外,他们选择使用次优配置,因为他们无法像Meta、Google一样部署NVL72架构,因此不得不使用NVL36架构,这导致每个设备成本增加。不过随着更多组件采用水冷系统,以及K2V6 400G NIC支持2025年第三季度开始支持HardWare Virtual Machine (HVVM)功能亚马逊也将能够使用NVL72架构,从而进一步优化其业务结构。

标签: 智能输送方案

猜你喜欢