英伟达B300AI推理的加速器自然界中的下马威芯片

近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达继续前进。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个循序渐进的过程,但实际上,这是极为高效的迭代。

全新GPU为大模型推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。B300是使用台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)制造的一个全新流片。这一定制化工艺做出了调整设计,以便专用于计算芯片,使得B300在浮点运算方面比B200高50%,而GB300和B300的热设计功耗分别达到1.4KW和1.2KW,比起GB200和B200更高。

此外,内存从8-Hi(8层堆叠)升级到12-Hi HBM3E,每个GPU内存容量增加到288GB,但引脚速度保持不变,因此每个GPU内存带宽仍然是8TB/s。不过,由于三星没有收到黄仁勋带来的礼物,他们至少在未来9个月里不会获得GB200或GB300订单。

这些改进背后的原因,是为了满足OpenAI O3对推理性能更高要求。OpenAI O3采用KVCache技术来优化模型推理能力,即通过缓存注意力机制中的键(Key)与值(Value),减少冗余计算,从而提高模型推理速度。关键在于缓存之前数据,只对新输入Token进行计算,所以对缓存性能提出了更高要求。

图表显示,在不同批处理大小下,用H100与H200两种GPU处理长序列时,大型开放源码模型Llama3.1405B在FP8精度下的处理速度。在输入设置为1000个Token,输出19000个Token的情况下模拟OpenAI o1与o3模型思维链。

H100升级至H200两个改进:内存更强劲,更快。

由于更多内存带宽(H200 4.8TB/s vs H100 3.35TB/s),所有可比较批处理交互效率通常提高43%。

运行较高批处理但成本降低了三倍。

内存在多维度产生影响。

由于请求响应等待时间很长,如果能够缩短推理时间,将增加用户付费意愿。

成本差异巨大。在中代更新中,可以实现三倍变化,这超过了摩尔定律、黄氏定律或其他任何硬件改进速率。

对于OEM/ODM提供参与供应计算托盘机会,一些重要变化包括向SXM Puck转变,为OEM/ODM提供参与供应计算托盘机会,而以前只有纬创资通工业富联可以生产BIANCA板。在这次供应商调整中,纬创资通成为最大输家,因为他们失去了BIANCA板份额。而工业富联虽然失去BIANCA板份额但因为他们是独家SXM Puck模块制造商,该部分收益完全抵消掉BIANCA板损失。此外,还有VRM改变,即使SXM Puck有一些VRM,大部分VRM由超大规模厂商直接采购。

市场信息表明,由于产品上市时间、机架、冷却及电源功率密度重大改变,大厂服务器层面无法太多地修改导致Meta放弃博通及英伟达两个渠道采购网络接口卡转而依赖英伟达;谷歌也放弃自家的网络接口卡选择合作。大厂们习惯成本优化,从CPU到网络再到螺丝金属板。但亚马逊例外,因其定制性选择“”配置。此举使亚马逊构建自己的主板利用水冷组件,并支持K2V6 400G NIC2025年第三季度支持HVM亚马逊同样能使用NVL72架构

标签: 智能输送方案

猜你喜欢