当前位置：首页 > 智能输送方案 > 英伟达B300AI推理的加速器颠覆芯片制造国家排名的自然选择

英伟达B300AI推理的加速器颠覆芯片制造国家排名的自然选择

智能输送方案
2025-05-13 01:32
0

近日，黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题，英伟达的Blackwell GPU曾多次传出延迟发布的消息，但这并未阻止英伟达加速其步伐。在GB200和B200发布六个月后，英伟达宣布将推出全新的GPU GB300和B300。外界可能看似是一个逐步推进的过程，但实际上，这是非常高效的迭代，全新GPU为大模型的推理和训练性能带来了巨大的提升，对于大模型公司和存储供应商来说，无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺（英伟达定制工艺，属于5nm制程节点的一部分）节点上的一个全新流片。定制化工艺做了一个调整设计，专用于计算芯片，使得B300浮点运算比B200高50%，GB300和B300的热设计功耗分别达到1.4KW和1.2KW，与之相比，GB200和B200的热设计功耗分别为1.2KW和1KW。此外，内存从8-Hi（8层堆叠）升级到12-Hi HBM3E，每个GPU内存容量增加到了288GB，但引脚速度保持不变，因此每个GPU内存带宽仍然是8TB/s。不过，由于三星没有收到黄仁勋带来的礼物，他们至少在未来九个月里都无法获得GB200或GB300订单。

更深入地探讨这些技术改进背后的原因，我们发现它们正被用于支持OpenAI O3对推理性能更高要求。这包括KVCache技术，它通过缓存注意力机制中的键（Key）与值（Value）的计算来减少冗余，并提高模型推理速度。关键在于缓存之前数据，以仅对新输入Token进行计算，从而对缓存性能提出了更高要求。

随着H100升级至H200两个改进——内存容量增加、速度提升——处理长序列时，大型开放源代码模型Llama3.1405B在FP8精度下的处理速度得到了显著提升。在不同批处理大小下，其交互效率通常提高43%；虽然运行时间缩短，但成本降低了三倍。这表明，在大型语言模型竞赛中，最具能力与差异化能力的大型语言模型能够实现显著溢价，而落后者则面临较低毛利率。

当然，不仅英伟达可以提供更多内存容量，也有其他公司如ASIC，以及AMD等厂家提供MI系列产品，其中MI325X拥有256GB、MI350X拥有288GB，这些产品超越了英伟达提供的大容量标准。然而，即使如此，大型语言模型需要大量资源才能实现最佳表现，而此类需求正在不断增长，为那些能满足这一需求的大规模硬件制造商带来了巨大利润空间。

最终，我们看到NVL72平台对于思维链延迟极低、高批量扩展性以及KVCache优化方面具有重大影响，使得它成为解决当前挑战的一个重要工具。不论是在原创内容还是用户体验上，都体现出了NVL72如何通过增强智能以创造新的价值。而作为供应链的一个转折点，这也揭示了一种即将到来的时代：一种基于深度学习、大规模并行计算及高速通讯网络组合成力的时代，在这个时代中，只有那些能够快速适应这种变化并占据先机的人们，将会取得成功。而对于那些不能迅速适应这种变化的人来说，则可能会陷入困境，因为他们不会再能控制自己的命运。如果我们相信历史趋势，那么未来很可能充满无限可能性。但如果我们不采取行动去塑造我们的未来，那么一切都将依赖于不可预测的事态发展，而这是任何计划都不愿意面对的事情。在这个意义上，可以说这样的改变，是一场由人类智慧所驱动，又由人性本身所限制的一场自然演变过程。在这样宏观层面的思考中，我们似乎又回到了起始点——自我反省与寻求突破。

标签：智能输送方案

上一篇：水体健康监测器确保饮用水安全的关键技术

下一篇：蒸汽之源抽象的能量唤醒器