英伟达B300AI推理的加速器中国自主光刻机的下马威在自然界中展现力量

近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达持续推进其技术发展。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。外界似乎看起来像是一个循序渐进的过程,但实际上,这是一种非常高效的迭代。全新GPU为大模型的推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。定制化工艺做出了调整设计,专用于计算芯片,使得B300浮点运算比B200高50%,GB300和B300的热设计功耗分别达到1.4KW和1.2KW,而相对之下,GB200和B200的热设计功耗分别为1.2KW和1KW。此外,B300内存从8-Hi(8层堆叠)升级到12-Hi HBM3E,每个GPU的HBM容量增加到288GB,但引脚速度保持不变,所以每个GPU内存带宽仍然是8TB/s。不过,此举也意味着至少在未来9个月内,大型电子公司三星都无法获得GB200或GB300订单。

此更新背后,是AI领域的大模型战争中“推理”的下一场战役。而这一变化,也被视为OpenAI O3对推理性能更高要求的一个回应。这项技术通过缓存注意力机制中的键(Key)与值(Value),以减少冗余计算,从而提高模型推理速度。但关键在于缓存之前旧数据,只对新输入Token进行计算,因此对于缓存性能提出了更高要求。

随着H100升级至H200两个改进——内存更高、速度更快——处理长序列时,在FP8精度下的处理速度有显著提升。在所有可比较批处理中交互效率通常提高43%;同时运行比H100更多批处理但成本降低了3倍。此举不仅影响了用户体验,还极大地影响了毛利率,其中头部模型能收取超过70%溢价,而落后者则低于20%。

虽然英伟达不是唯一能够提升内存容量的人,他们同样可以实现这一点,而且事实上AMD可能在这一方面处于优势,比如MI系列产品提供192GB、256GB甚至288GB等较高容量选项。但NVL72使得72个GPU能够共享相同问题并且延迟极低,没有其他加速器拥有如此完善互联交换连接及操作能力。这使得NVL72在许多关键功能上产生质变:

更好的交互性使思维链延迟更加短。

72个GPU分散KVCache,以实现更长思维链。

在典型服务器相比,更好批量大小扩展,使成本降低。

处理同一问题时,可以搜索更多样本以提高准确性,最终提升模型性能。

因此,在长时间思考链上NVL72显示出10倍以上改善效果,并且KVCache占用内存在经济效益方面具有致命性的潜力,但NVL72能够将思维长度扩展至十万Token以上,并且在高批量中进行此类任务。

尽管如此,由于产品发布时间、机架结构、冷却系统以及电源密度等重大变化,大厂们难以对现有的服务器进行太多改动,这导致Meta放弃了使用博通与英伟达两家渠道采购网络接口卡(NICs)的计划,而转向完全依赖英伟达。此外谷歌也放弃自家的网络接口卡选择与英伟达合作。而亚马逊作为例外,其定制化配置让他们“”选择次优配置,因为它们不能像Meta或谷歌那样部署NVL72架构,因此不得不使用较小规模组件造成成本增加。

标签: 智能输送方案

猜你喜欢