当前位置：首页 > 智能输送方案 > 英伟达B300AI推理的加速器自然界中的下马威芯片

英伟达B300AI推理的加速器自然界中的下马威芯片

智能输送方案
2025-05-13 07:28
0

近日，黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题，英伟达的Blackwell GPU曾多次传出延迟发布的消息，但这并未阻止英伟达继续前进。在GB200和B200发布六个月后，英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个循序渐进的过程，但实际上，这是极为高效的迭代。

全新GPU为大模型推理和训练性能带来了巨大的提升，对于大模型公司和存储供应商来说，无疑是一份巨大的圣诞礼物。B300是使用台积电4NP工艺（英伟达定制工艺，属于5nm制程节点的一部分）制造的一个全新流片。这一定制化工艺做出了调整设计，以便专用于计算芯片，使得B300在浮点运算方面比B200高50%，而GB300和B300的热设计功耗分别达到1.4KW和1.2KW，比起GB200和B200更高。

此外，内存从8-Hi（8层堆叠）升级到12-Hi HBM3E，每个GPU内存容量增加到288GB，但引脚速度保持不变，因此每个GPU内存带宽仍然是8TB/s。不过，由于三星没有收到黄仁勋带来的礼物，他们至少在未来9个月里不会获得GB200或GB300订单。

这些改进背后的原因，是为了满足OpenAI O3对推理性能更高要求。OpenAI O3采用KVCache技术来优化模型推理能力，即通过缓存注意力机制中的键（Key）与值（Value），减少冗余计算，从而提高模型推理速度。关键在于缓存之前数据，只对新输入Token进行计算，所以对缓存性能提出了更高要求。

图表显示，在不同批处理大小下，用H100与H200两种GPU处理长序列时，大型开放源码模型Llama3.1405B在FP8精度下的处理速度。在输入设置为1000个Token，输出19000个Token的情况下模拟OpenAI o1与o3模型思维链。

H100升级至H200两个改进：内存更强劲，更快。

由于更多内存带宽（H200 4.8TB/s vs H100 3.35TB/s），所有可比较批处理交互效率通常提高43%。

运行较高批处理但成本降低了三倍。

内存在多维度产生影响。

由于请求响应等待时间很长，如果能够缩短推理时间，将增加用户付费意愿。

成本差异巨大。在中代更新中，可以实现三倍变化，这超过了摩尔定律、黄氏定律或其他任何硬件改进速率。

对于OEM/ODM提供参与供应计算托盘机会，一些重要变化包括向SXM Puck转变，为OEM/ODM提供参与供应计算托盘机会，而以前只有纬创资通工业富联可以生产BIANCA板。在这次供应商调整中，纬创资通成为最大输家，因为他们失去了BIANCA板份额。而工业富联虽然失去BIANCA板份额但因为他们是独家SXM Puck模块制造商，该部分收益完全抵消掉BIANCA板损失。此外，还有VRM改变，即使SXM Puck有一些VRM，大部分VRM由超大规模厂商直接采购。

市场信息表明，由于产品上市时间、机架、冷却及电源功率密度重大改变，大厂服务器层面无法太多地修改导致Meta放弃博通及英伟达两个渠道采购网络接口卡转而依赖英伟达；谷歌也放弃自家的网络接口卡选择合作。大厂们习惯成本优化，从CPU到网络再到螺丝金属板。但亚马逊例外，因其定制性选择“”配置。此举使亚马逊构建自己的主板利用水冷组件，并支持K2V6 400G NIC2025年第三季度支持HVM亚马逊同样能使用NVL72架构

标签：智能输送方案

上一篇：肉质高的小说探索美食与文学的交响曲

下一篇：苹果33年前的IPO创造了三百位百万富翁智能化资讯时代中的传奇人物如何继续书写