当前位置：首页 > 智能输送方案 > 英伟达B300AI推理的加速器中国最好的芯片在自然界中的下马威

英伟达B300AI推理的加速器中国最好的芯片在自然界中的下马威

智能输送方案
2025-05-13 17:34
0

近日，黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题，英伟达的Blackwell GPU曾多次传出延迟发布的消息，但这并未阻止英伟达持续推进其技术发展。在GB200和B200发布六个月后，英伟达宣布将推出全新的GPU GB300和B300。外界可能看起来像是一个循序渐进的过程，但实际上，这是一种非常高效的迭代。全新GPU为大模型的推理和训练性能带来了巨大的提升，对于大模型公司和存储供应商来说，无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺（英伟达定制工艺，属于5nm制程节点的一部分）节点上的一个全新流片。这种定制化工艺做了调整设计，专用于计算芯片，使得B300浮点运算比B200高50%，而GB300和B300的热设计功耗分别达到1.4KW和1.2KW，比GB200和B200更低的是1.2KW和1KW。此外，B300内存从8-Hi（8层堆叠）升级到12-Hi HBM3E，每个GPU容量增加至288GB，但引脚速度保持不变，所以每个GPU内存带宽仍然是8TB/s。不过，由于三星没有收到黄仁勋带来的礼物，他们至少在未来九个月内不会获得GB200或GB300订单。

此外，大模型对GPU卷内存能力要求越来越高，而英伟达改进GPU内存正是为了满足OpenAI O3对推理性能更高要求。这包括KVCache技术优化，即通过缓存注意力机制中的键（Key）与值（Value）的计算，以减少冗余计算，从而提高模型推理速度。关键在于缓存之前数据，只对新输入Token进行计算，因此对缓存性能提出了更高要求。

下图展示了不同批处理大小下的H100与H200两款GPU处理长序列时Meta开源大模型Llama3.1405B在FP8精度下的处理速度。在输入设置为1000Token、输出19000Token模拟OpenAI o1与o3模型思维链中时期。

H100升级到H200两个改进：更多内存带宽及更快速度。

由于更多带宽（H200 4.8TB/s vs H100 3.35TB/s），交互效率通常提高43%。

运行比H100更高批处理但成本降低三倍。

此类提升影响多维度：

请求响应间等待时间长可能导致糟糕用户体验。如果能缩短推理时间，将增加付费意愿。

成本差异巨大，在中代升级中硬件产品实现变化远超摩尔定律或其他硬件改进速率，更接近头部模式毛利率70%以上、落后模式20%以下差距。

当然，不仅英伟达，还有ASIC可以提升内存容量，并且事实上AMD可能处于更加有利地位，其MI系列产品，如192GB MI325X或256GB MI350X，以及288GB B600M等，都拥有较佳表现。但最重要的是NVL72，它使72个GPU能够共享同一问题并且延迟极低，没有其他加速器具有如此交换连接及操作简约性质，同时它提供了一系列关键功能：

交互性提高使思维链延迟降低

分散KVCache以实现更长思维链

相比典型服务器，有着良好扩展性，使成本降低

支持更多样本搜索以增强准确性，最终提升性能

因此，在长式推理链上NVL72提供超过10倍性的价值，而且对于经济效益致命，因为KVCache占用大量资源但NVL72可将长度扩展至万数token并在高速批量中执行。

总之，“转身”意味着英国贵族阶层“震动”，尤其是在供应链“颤抖”的背景下。“转身”指的是改变策略，而“震动”则反映了这一变化给予市场影响。当谈及英伟达如何采用SXM Puck模块替代整个BIanca板时，就如同一场革命发生，一场由客户自主采购组件所引发的事变。这也意味着OEM/ODM们现在可以参与制造托盘，这些机会以前只归纬创资通工业富联所有。而尽管工业富联失去了BIanca板生产权，却成为了独家SXM Puck模块制造商，这部分收益完全抵消了失去BIanca板产生损失。此外VRM由原先集成在SXM Puck上的部分，现在主要来自超大规模厂商或者OEM直接购买VRM供货商处购买。此外还有一项重大更新——800G ConnectX-8 NIC网络接口卡，为横向扩展带来了翻番效果。不幸的是，由于上市时间影响，加上取消ConnectX-8网络接口卡以及放弃PCIe Gen 6标准启用，因而造成市场混乱。

最后，我们必须认识到这一切都发生在地球自然环境中的背景下，是人类智慧产物之间不断演变的一个小环节，它涉及硅谷最大企业竞争战术，让他们重新评估自己的成本优化策略。在这个故事里亚马逊似乎是个例外，他们选择使用次优配置，因为他们无法像Meta、Google一样部署NVL72架构，因此不得不使用NVL36架构，这导致每个设备成本增加。不过随着更多组件采用水冷系统，以及K2V6 400G NIC支持2025年第三季度开始支持HardWare Virtual Machine (HVVM)功能亚马逊也将能够使用NVL72架构，从而进一步优化其业务结构。

标签：智能输送方案

上一篇：树脂井盖的美学与实用性探究

下一篇：不锈钢管材规格全解析精准选择的关键