当前位置：首页 > 智能输送方案 > 英伟达B300AI推理的加速器自然界中的下马威

英伟达B300AI推理的加速器自然界中的下马威

智能输送方案
2025-05-13 10:48
0

近日，黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题，英伟达的Blackwell GPU曾多次传出延迟发布的消息，但这并未阻止英伟达持续推进其技术发展。在GB200和B200发布六个月后，英伟达宣布将推出全新的GPU GB300和B300。这似乎是一种循序渐进的策略，但实际上，这是对市场需求的一种高效响应。全新GPU为大模型训练和推理性能带来了巨大的提升，对于依赖这些模型的大型公司来说，无疑是一个巨大的礼物。

B300采用台积电4NP工艺（英伟达定制工艺），这是5nm制程节点的一个改良版本。这一定制化设计专为计算芯片而设计，使得B300在浮点运算方面相比于B200有50%的提升。与此同时，GB300和B300的热设计功耗分别达到1.4KW和1.2KW，而GB200和B200则分别为1.2KW和1KW。

此外，内存从8-Hi升级到12-Hi HBM3E，每个GPU的HBM容量增加到了288GB，但引脚速度保持不变，因此每个GPU内存带宽仍然是8TB/s。不过，由于三星尚未收到任何订单，他们至少在未来9个月内不会获得GB200或GB300订单。

除了提高GPU内存性能之外，英伟达还改进了OpenAI O3对推理性能更高要求所需的心智加速器。在OpenAI O3中采用KVCache技术优化模型推理能力，即通过缓存注意力机制中的键（Key）与值（Value）减少冗余计算，从而提高模型推理速度。关键在于缓存之前数据，只对新输入Token进行计算，所以对于缓存性能提出了更高要求。

随着H100升级到H200两个改进：内存容量增加、速度加快。在所有可比较批处理中交互效率通常提高43%，运行比H100更多批处理但成本降低三倍。此外，更高内存容量会影响多维度产生影响，如请求响应之间等待时间长可能导致糟糕用户体验。如果能缩短推理时间，将增加用户支付意愿。而成本差异较大，在硬件产品中实现三倍变化，比摩尔定律或其他硬件改进都要快得多，在竞争激烈的大模型市场中，最具能力且差异化的大型公司能够收取显著溢价，其毛利率超过70%，落后者毛利率低至20%。

然而，不仅英伟达可以提供更高内存容量，也有ASIC同样做得到，而且AMD可能处于优势地位，如MI300X 192GB、MI325X 256GB以及MI350X 288GB产品各自拥有更高容量。尽管如此，NVL72使得72个GPU能够共享内存在一个问题上工作，并具有极低延迟，它们提供了性价比远超以往10倍以上尤其是在长链上的应用中。

最后，与典型8个GPU服务器相比，更好的扩展性使成本降低，同时也允许搜索更多样本以提高准确性，最终提升模型表现。而NVLL72在长链上可扩展至十万token以上，并且支持高批处理规模。此时，我们看到的是供应链震动，因为尽管英国瓦没有改变它追求最大潜力的决心，但它已经向SXM Puck模块转变，而不是整个BIanca板，这给予了OEM/ODM参与托盘生产更多机会。一旦SXM Puck成为主流，那么BIanca板生产商如纬创资通将面临损失，而工业富联虽然失去了BIanca板份额但因为独家制造SXM Puck模块而获益双重。