英伟达B300AI推理的加速器半导体领域的自然选择与芯片区别解析

  • 2025-05-13 02:44
  • 0

近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达持续推进其技术发展。在GB200和B200发布后半年,英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个逐步迭代的过程,但实际上,这是极具效率的一系列改进。全新GPU为大模型的推理与训练性能带来了巨大的提升,对于大模型公司和存储供应商而言,无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)上的一个全新流片。通过定制化工艺设计调整,使得B300在浮点运算方面比B200高50%,而热设计功耗分别达到1.4KW和1.2KW,与GB200和B200相比,其热设计功耗分别为1.2KW和1KW。此外,内存从8-Hi升级到12-Hi HBM3E,每个GPU容量增加至288GB,但引脚速度保持不变,因此每个GPU内存带宽仍然是8TB/s。不过,由于三星尚未收到黄仁勋带来的礼物,他们至少在未来9个月内不会接收到GB200或GB300订单。

此举背后的关键,是为了满足OpenAI O3对推理性能更高要求。OpenAI O3采用KVCache技术优化模型推理能力,即通过缓存注意力机制中的键值对减少冗余计算,从而提高模型推理速度。这涉及缓存之前数据,只针对新输入Token进行计算,因此对于缓存性能提出了更高要求。

图表展示了不同批处理大小下使用H100与H200两种GPU处理长序列时,大型开源模型Llama3.1405B在FP8精度下的处理速度。当输入设定为1000个Token,输出19000个Token模拟OpenAI o1与o3中思维链时,可以看出H100升级至H200两个改进:内存更高、速度更快。在所有可比较批处理中交互效率通常提高43%;运行比H100更多批处理但成本降低了三倍;内存在多维度产生影响,如请求响应之间等待时间较长可能导致糟糕用户体验,如果能缩短这些时间将增加用户付费意愿;成本差异巨大,在硬件产品实现变化方面,比摩尔定律、黄氏定律或其他任何硬件改进都要快得多。

在大型语言竞赛中,最具能力且差异化的模型能够收取显著溢价,而头部模式毛利率超过70%,落后模式毛利率低于20%。

当然,不仅英伟达,还有ASIC同样可以提升内存容量,而且事实上AMD可能处于更加有利的地位,其MI300X提供192GB、MI325X提供256GB以及MI350X提供288GB,这些产品的内存容量远超英伟达。而且NVL72使得72个GPU能够共享一块主板,并以极低延迟完成任务,而世界上没有其他加速器能实现如此良好的交换连接及操作性质。

因此,在解决许多关键功能方面,有很大的改变:

更高交互性使思维链延迟更低。

72个分散KVCache,以实现更长思维链(增强智能)。

与典型服务器相比,更好扩展性,使成本降低。

在同一问题上搜索更多样本,以提高准确性,最终提升性能。

因此,NVL72获得的大幅加成特别是在长推理链上的效果显著,将原本10万以上token长度限制扩展到了现在可支持40万以上token长度,并在高批量中保持良好表现。此举极大地提升了NVL72在经济效益上的优势,同时也意味着对于KVCache占用大量空间的事务构成了致命打击,因为NVL72可以支持10万以上token长度,并保持良好效果,它成为了一种革命性的创新之举,为整个行业注入新的活力,也为那些追求先机者揭示了一条通往成功之路——即如何有效利用资源来创造价值,让用户体验更加丰富多彩,而不是简单地依赖旧有的设备来支撑业务增长。

此外,一项重大变化是VRM由超大规模厂商直接采购,或由OEM从VRM供应商那里购买。此外,800G ConnectX-8 NIC网络接口卡使横向扩展带宽翻番。但由于市场信息显示,由于上市时间影响,之前取消了对ConnectX-8网络接口卡,以及放弃启用PCIe Gen 6标准这一决定所产生的影响,对市场造成深刻印象。而市场信息表明,从第三季度起,大部分订单转向了使用基于SXM Puck模块搭载该芯片组件的心脏服务器系统。这意味着客户需要自行采购剩余组件,如CPU、RAM等,而非像以前那样完全依赖单一供应商如纬创资通或工业富联制造整套系统。这一转变给予包括亚马逊这样的客户更多选择权力,同时也促使原有的供应商面临压力重新评估自身策略,以适应这种快速变化环境中的生态平衡挑战。

标签: 智能输送方案

猜你喜欢