英伟达B300AI推理的加速器中国首台3纳米光刻机在自然环境下的下马威

近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达持续推进产品更新。在GB200和B200发布6个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个循序渐进的过程,但实际上,这是非常高效的迭代。

全新GPU为大模型的推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。定制化工艺做了调整设计,专用于计算芯片,使得B300浮点运算比B200高50%,热设计功耗分别达到1.4KW和1.2KW,比GB200和B200分别低0.8KW。

此外,内存从8-Hi(8层堆叠)升级到12-Hi HBM3E,每个GPU容量增加到288GB,但引脚速度保持不变,所以每个GPU内存带宽仍然是8TB/s。不过,在接下来的9个月内,他们都不会获得GB200或GB300订单。

更重要的是,这些改进背后,是为了满足OpenAI O3对推理性能更高要求。OpenAI O3采用KVCache技术对模型进行优化,即通过缓存注意力机制中的键(Key)和值(Value)来减少冗余计算,从而提高模型推理速度。这需要更好的缓存性能。

随着H100升级至H200两个改进:内存容量提升,以及速度加快。此举不仅在不同批处理大小下显著提高了交互效率,还使成本降低三倍。这对于用户体验尤其重要,因为请求与响应之间较长时间会导致糟糕体验。如果能缩短这些时间,将极大地增加用户付费意愿。

然而,并非只有英伟达可以提供这种增强性质的大规模内存容量实现。ASIC同样有能力,并且AMD在这一领域可能处于优势位置,其MI系列产品提供192GB、256GB及288GB等不同容量选项,与英伟达相比,有着更多选择性。

另一种关键技术就是NVL72,它使得72个GPU能够共同处理问题并共享内存,同时延迟极低。这项技术为许多关键功能带来了质의变化:

更高交互性使思维链延迟更低。

72个分散KVCache以实现更长思维链。

对比典型服务器,更好的批处理扩展成本更低。

能够搜索更多样本以提高准确性,最终提升模型性能。

因此,在长推理链上NVL72提供了10倍以上的价值增长,而对于经济效益具有致命影响的小型KVCache则被解决掉了。此外,由于客户现在需要自行采购其他组件,大厂们如Meta、谷歌等也必须重新评估他们基于亚马逊采用的配置方式,以适应新的系统架构需求。而亚马逊虽然习惯于定制化但不得不接受这一转变,因为他们无法部署NVL72架构,因此不得不使用较旧版本NVL36架构,从而导致每块设备成本更加昂贵。但正是在这样的背景下,大厂们逐渐认识到利用英伟达提供的大型主板、冷却系统等功能来建立自己的定制主板成为必要步骤之一,这样的转变将帮助亚马逊最终实现使用NVL72架构并进一步降低成本。此刻,我们正在迎来一个时代,不仅仅是硬件产品快速发展,更是一个关于如何最大程度利用这些新兴技术来驱动业务创新与增长的问题。而答案似乎已经明朗——通过不断地探索与实践,我们将找到最佳路径去改变世界。

标签: 智能输送方案

猜你喜欢