英伟达B300AI推理的加速器自然界中的芯片解密公司下马威

近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达持续推进其技术发展。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能看起来像是一个循序渐进的过程,但实际上,这是一种非常高效的迭代。全新GPU为大模型的推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。通过定制化工艺设计,使得B300浮点运算比B200高50%,GB300和B300的热设计功耗分别达到1.4KW和1.2KW,与之相比,GB200和B200热设计功耗分别为1.2KW和1KW。

此外,B300内存从8-Hi升级到12-Hi HBM3E,每个GPU HBM容量增加到288GB,但引脚速度保持不变,所以每个GPU内存带宽仍然是8TB/s。不过,由于三星尚未收到黄仁勋带来的礼物,他们至少在未来9个月内不会获得GB200或GB300订单。

更重要的是,这些改进背后,是为了满足OpenAI O3对推理性能更高要求。这涉及到了KVCache技术对模型推理能力进行优化,即通过缓存注意力机制中的键(Key)与值(Value),减少冗余计算,从而提高模型推理速度。关键就在于缓存之前数据,只对新输入Token进行计算,因此对缓存性能提出了更高要求。

对于NVL72,它使得72个GPU能够处理同一问题,并共享内memory,以实现低延迟。此世界上没有其他加速器拥有全互联交换连接以及能够通过交换机进行全约简操作。NVL72为实现许多关键功能带来了性价比显著提升:

更高交互性使思维链延迟更低。

72个GPU分散KVCache,以实现更长思维链(增强智能)。

与典型8个GPU服务器相比,更好的批量大小扩展,使成本更低。

在处理同一问题时,可以搜索更多样本,以提高准确性,最终提升模型性能。

因此,在长推理链上,NVL72提供了10倍以上的预期价值,加强了经济效益。但KVCache占用大量内memory,对经济效益至关重要,而NVL72却能将推理长度扩展至10,000 Token以上,并在高速批量中运行。

最后,我们可以看到这些变化如何影响供应链。一方面,它们给予了客户更多自主采购组件选项,如外部存储器使用LPCAMM模块,而非焊接LPDDR5X;美光或成为这些模块主要供应商。此外,与SXM Puck转变,为OEM/ODM提供参与生产计算托盘机会,也改变了VRM采购方式,以及网络接口卡采用800G ConnectX-8 NIC等内容。在这一系列变化中,有些公司如纬创资通失去了原有的市场份额,而另一些如工业富联则获得了一定的补偿机会。而亚马逊则因无法使用NVL72架构而不得不支付较高成本以购买额外组件来支持其需求,同时也意味着他们需要重新评估自己的硬件配置策略以适应不断变化的情况。在这个背景下,大厂们决定放弃原本计划采用的产品方案转向更加先进且具有潜力的解决方案,从而进一步巩固它们在市场上的领导地位。而这种转变无疑会继续塑造整个行业格局,为未来的大型语言模型、高级人工智能应用奠定坚实基础,同时也揭示了竞争者之间激烈角逐所产生的一系列挑战与机遇。

标签: 智能输送方案

猜你喜欢