当前位置：首页 > 智能输送方案 > 英伟达B300AI推理的加速器CPU排行榜2023天梯图中的下马威在自然界中展现力量

英伟达B300AI推理的加速器CPU排行榜2023天梯图中的下马威在自然界中展现力量

智能输送方案
2025-05-13 04:11
0

近日，黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题，英伟达的Blackwell GPU曾多次传出延迟发布的消息，但这并未阻止英伟达持续推进其技术发展。在GB200和B200发布六个月后，英伟达宣布将推出全新的GPU GB300和B300。外界可能看起来像是一个循序渐进的过程，但实际上，这是一种非常高效的迭代。全新GPU为大模型的推理和训练性能带来了巨大的提升，对于大模型公司和存储供应商来说，无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺（英伟达定制工艺，属于5nm制程节点的一部分）节点上的一个全新流片。定制化工艺做出了调整设计，专用于计算芯片，使得B300浮点运算比B200高50%，GB300和B300的热设计功耗分别达到1.4KW和1.2KW，而相对之下，GB200和B200的热设计功耗分别为1.2KW和1KW。此外，B300内存从8-Hi（8层堆叠）升级到12-Hi HBM3E，每个GPU的HBM容量增加到288GB，但引脚速度保持不变，所以每个GPU内存带宽仍然是8TB/s。不过，由于三星没有收到黄仁勋带来的礼物，他们至少在未来九个月内都不会有机会获得GB200或GB300订单。

在自然界中，大型模型如OpenAI O3通过KVCache技术优化了其推理能力，即通过缓存注意力机制中的键（Key）与值（Value），减少冗余计算，从而提高模型推理速度。关键就是缓存之前旧数据，只对新输入Token进行计算，因此对于缓存性能提出了更高要求。在不同批处理大小下使用H100与H200两种GPU处理长序列时，大型开源模型Llama3.1405B在FP8精度下的处理速度展示了显著提升。

H100升级至H200两个改进是：内存更强大、速度更快。这使得交互效率通常提高43%，运行时间也被缩短了。此外，更高内存容量会产生多方面影响，如请求响应之间等待时间较长的情况，在某些情况下可能导致糟糕用户体验。如果能够缩短推理时间，将增加用户付费意愿。

随着硬件产品能实现三倍变化，比摩尔定律或其他所有硬件改进速度都要快得多的大型模式竞赛中，最具能力差异化的大型模式能够收取显著溢价，其头部模式毛利率超过70%，而落后模式毛利率低于20%。

然而，不仅英伟达，还有其他公司如ASIC可以提供相同水平别样的解决方案，而且事实上AMD可能处于更有利的地位，其MI系列产品提供192GB、256GB甚至288GB内存容量，这些产品均超过英伟达标准。此外，NVL72架构使72个GPU能够共享同一问题，并且延迟极低，它们为许多关键功能带来了质性的改变，如思维链延迟降低、分散KVCache以实现更长思维链等，使成本更加合适。

此外，在服务器层面，由于产品上市时间、机架配置冷却系统以及电源功率密度重大变化，大厂无法对原先版本进行太多改变，这导致Meta放弃希望同时采购博通及英伟达网络接口卡，而选择完全依赖单一来源——即英国亚马逊成为例外，因为他们采用定制策略“”选择次优配置。但由于不能部署NVL72架构，他们不得不使用NVL36，每个GPU成本因此变得更加昂贵。而随着更多组件采用水冷，以及K2V6 400G NIC支持2025年第三季度支持硬件虚拟化管理，这使亚马逊也有机会利用NVL72架构并最终转变其操作方式。