当前位置：首页 > 智能输送方案 > 英伟达B300AI推理的加速器2022年芯片龙头股排名前十的供应链下马威在自然界中的应用

英伟达B300AI推理的加速器2022年芯片龙头股排名前十的供应链下马威在自然界中的应用

智能输送方案
2025-05-13 12:02
0

近日，黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题，英伟达的Blackwell GPU曾多次传出延迟发布的消息，但这并未阻止英伟达继续前进。在GB200和B200发布六个月后，英伟达宣布将推出全新的GPU GB300和B300。外界似乎看起来像是一个循序渐进的过程，但实际上，这是一种非常高效的迭代方式，全新GPU为大模型推理和训练性能带来了巨大的提升，对于大模型公司和存储供应商来说，无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺（英伟达定制工艺，属于5nm制程节点的一部分）节点上的一个全新流片。定制化工艺做了调整设计，以便专用于计算芯片，使得B300浮点运算比B200提高50%，而热设计功耗分别达到1.4KW和1.2KW，比GB200和B200更高。

此外，B300内存从8-Hi（8层堆叠）升级到12-Hi HBM3E，每个GPU的HBM容量增加到288GB，但引脚速度保持不变，所以每个GPU内存带宽仍然是8TB/s。不过，三星并没有收到黄仁勋带来的礼物，因为至少在未来9个月里，他们都不会获得GB200或GB300订单。

英伟达改进GPU内存背后的原因，是为了满足OpenAI O3对推理性能更高要求。OpenAI O3采用KVCache技术优化模型推理能力，即通过缓存注意力机制中的键（Key）与值（Value），减少冗余计算，从而提高模型推理速度。关键在于缓存之前旧数据，只对新输入Token进行计算，因此对缓存性能提出了更高要求。

下图展示了不同批处理大小下使用H100与H200两种GPU处理长序列时，大型开源模型Llama3.1405b在FP8精度下的处理速度。在输入设置为1000Token，输出19000Token的情况下模拟OpenAI o1与o3模型中的思维链。

H100升级至H200两个改进：内存更多，更快。

由于更多内存带宽（H200 4.8TB/s vs H100 3.35TB/s），在所有可比较批处理中交互效率通常提高43%。

运行比H100更高批处理但成本降低了三倍。

内存容量提升，在多方面都会产生影响。

由于请求响应之间等待时间很长，可能会导致糟糕用户体验。如果能缩短推理时间，这将增加用户付费意愿。

成本差异之大，在某种程度上，比摩尔定律、黄氏定律或其他硬件改进速率都要快得多。在大型模型竞赛中，最具能力差异化的大型模型能够收取显著溢价，而头部模式毛利率超过70%，落后模式毛利率低于20%。

当然，不仅英伟达，还有ASIC可以提供类似的提升，并且事实上AMD可能处于优势地位，其MI系列产品如MI325X具有256GB内存在手，同时保持引脚速度不变，将每个设备的总带宽固定为16TB/s。此外，一些OEM/ODM现在也有机会参与SXM Puck生产，如纬创资通失去了原有的位置。而工业富联虽然失去了同样的市场份额，但他们作为独家制造商取得了成功，并且抵消掉损失部分收入。此外，由于VRM供应商变化，以及800G ConnectX-8 NIC使InfiniBand以太网横向扩展加倍，此举直接影响到了硅谷的大厂们。这也表明自第三季度开始大量订单转向了GB300，而截至最近所有主要厂商决定使用该平台。一部分原因是其性能以及更大的记忆体空间，一方面则是因为英国已经控制住这些公司的大规模训练命运。

标签：智能输送方案

上一篇：芯片封测龙头股排名前十天玑8400引领REDMI Turbo 4首发火爆

下一篇：英伟达B300AI推理的加速器中国芯片自给之梦在自然选择中浮现为供应链下马威