当前位置：首页 > 智能输送方案 > 英伟达B300AI推理的加速器中国自主光刻机的下马威在自然界中展现力量

英伟达B300AI推理的加速器中国自主光刻机的下马威在自然界中展现力量

智能输送方案
2025-05-13 16:47
0

近日，黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题，英伟达的Blackwell GPU曾多次传出延迟发布的消息，但这并未阻止英伟达持续推进其技术发展。在GB200和B200发布六个月后，英伟达宣布将推出全新的GPU GB300和B300。外界似乎看起来像是一个循序渐进的过程，但实际上，这是一种非常高效的迭代。全新GPU为大模型的推理和训练性能带来了巨大的提升，对于大模型公司和存储供应商来说，无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺（英伟达定制工艺，属于5nm制程节点的一部分）节点上的一个全新流片。定制化工艺做出了调整设计，专用于计算芯片，使得B300浮点运算比B200高50%，GB300和B300的热设计功耗分别达到1.4KW和1.2KW，而相对之下，GB200和B200的热设计功耗分别为1.2KW和1KW。此外，B300内存从8-Hi（8层堆叠）升级到12-Hi HBM3E，每个GPU的HBM容量增加到288GB，但引脚速度保持不变，所以每个GPU内存带宽仍然是8TB/s。不过，此举也意味着至少在未来9个月内，大型电子公司三星都无法获得GB200或GB300订单。

此更新背后，是AI领域的大模型战争中“推理”的下一场战役。而这一变化，也被视为OpenAI O3对推理性能更高要求的一个回应。这项技术通过缓存注意力机制中的键（Key）与值（Value），以减少冗余计算，从而提高模型推理速度。但关键在于缓存之前旧数据，只对新输入Token进行计算，因此对于缓存性能提出了更高要求。

随着H100升级至H200两个改进——内存更高、速度更快——处理长序列时，在FP8精度下的处理速度有显著提升。在所有可比较批处理中交互效率通常提高43%；同时运行比H100更多批处理但成本降低了3倍。此举不仅影响了用户体验，还极大地影响了毛利率，其中头部模型能收取超过70%溢价，而落后者则低于20%。

虽然英伟达不是唯一能够提升内存容量的人，他们同样可以实现这一点，而且事实上AMD可能在这一方面处于优势，比如MI系列产品提供192GB、256GB甚至288GB等较高容量选项。但NVL72使得72个GPU能够共享相同问题并且延迟极低，没有其他加速器拥有如此完善互联交换连接及操作能力。这使得NVL72在许多关键功能上产生质变：

更好的交互性使思维链延迟更加短。

72个GPU分散KVCache，以实现更长思维链。

在典型服务器相比，更好批量大小扩展，使成本降低。

处理同一问题时，可以搜索更多样本以提高准确性，最终提升模型性能。

因此，在长时间思考链上NVL72显示出10倍以上改善效果，并且KVCache占用内存在经济效益方面具有致命性的潜力，但NVL72能够将思维长度扩展至十万Token以上，并且在高批量中进行此类任务。

尽管如此，由于产品发布时间、机架结构、冷却系统以及电源密度等重大变化，大厂们难以对现有的服务器进行太多改动，这导致Meta放弃了使用博通与英伟达两家渠道采购网络接口卡（NICs）的计划，而转向完全依赖英伟达。此外谷歌也放弃自家的网络接口卡选择与英伟达合作。而亚马逊作为例外，其定制化配置让他们“”选择次优配置，因为它们不能像Meta或谷歌那样部署NVL72架构，因此不得不使用较小规模组件造成成本增加。

标签：智能输送方案

上一篇：工业守护者密封件设备的无声英雄

下一篇：塑料管道供应商热线通讯录水管厂家直供优选