英伟达B300AI推理的加速器颠覆芯片制造国家排名的自然选择

近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达加速其步伐。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能看似是一个逐步推进的过程,但实际上,这是非常高效的迭代,全新GPU为大模型的推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。定制化工艺做了一个调整设计,专用于计算芯片,使得B300浮点运算比B200高50%,GB300和B300的热设计功耗分别达到1.4KW和1.2KW,与之相比,GB200和B200的热设计功耗分别为1.2KW和1KW。此外,内存从8-Hi(8层堆叠)升级到12-Hi HBM3E,每个GPU内存容量增加到了288GB,但引脚速度保持不变,因此每个GPU内存带宽仍然是8TB/s。不过,由于三星没有收到黄仁勋带来的礼物,他们至少在未来九个月里都无法获得GB200或GB300订单。

更深入地探讨这些技术改进背后的原因,我们发现它们正被用于支持OpenAI O3对推理性能更高要求。这包括KVCache技术,它通过缓存注意力机制中的键(Key)与值(Value)的计算来减少冗余,并提高模型推理速度。关键在于缓存之前数据,以仅对新输入Token进行计算,从而对缓存性能提出了更高要求。

随着H100升级至H200两个改进——内存容量增加、速度提升——处理长序列时,大型开放源代码模型Llama3.1405B在FP8精度下的处理速度得到了显著提升。在不同批处理大小下,其交互效率通常提高43%;虽然运行时间缩短,但成本降低了三倍。这表明,在大型语言模型竞赛中,最具能力与差异化能力的大型语言模型能够实现显著溢价,而落后者则面临较低毛利率。

当然,不仅英伟达可以提供更多内存容量,也有其他公司如ASIC,以及AMD等厂家提供MI系列产品,其中MI325X拥有256GB、MI350X拥有288GB,这些产品超越了英伟达提供的大容量标准。然而,即使如此,大型语言模型需要大量资源才能实现最佳表现,而此类需求正在不断增长,为那些能满足这一需求的大规模硬件制造商带来了巨大利润空间。

最终,我们看到NVL72平台对于思维链延迟极低、高批量扩展性以及KVCache优化方面具有重大影响,使得它成为解决当前挑战的一个重要工具。不论是在原创内容还是用户体验上,都体现出了NVL72如何通过增强智能以创造新的价值。而作为供应链的一个转折点,这也揭示了一种即将到来的时代:一种基于深度学习、大规模并行计算及高速通讯网络组合成力的时代,在这个时代中,只有那些能够快速适应这种变化并占据先机的人们,将会取得成功。而对于那些不能迅速适应这种变化的人来说,则可能会陷入困境,因为他们不会再能控制自己的命运。如果我们相信历史趋势,那么未来很可能充满无限可能性。但如果我们不采取行动去塑造我们的未来,那么一切都将依赖于不可预测的事态发展,而这是任何计划都不愿意面对的事情。在这个意义上,可以说这样的改变,是一场由人类智慧所驱动,又由人性本身所限制的一场自然演变过程。在这样宏观层面的思考中,我们似乎又回到了起始点——自我反省与寻求突破。

标签: 智能输送方案

猜你喜欢