当前位置：首页 > 智能输送方案 > 英伟达B300AI推理的加速器自然界中的下马威依赖芯片封装工艺流程的精妙

英伟达B300AI推理的加速器自然界中的下马威依赖芯片封装工艺流程的精妙

智能输送方案
2025-05-13 04:45
0

近日，黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题，英伟达的Blackwell GPU曾多次传出延迟发布的消息，但这并未阻止英伟达持续推进其技术发展。在GB200和B200发布六个月后，英伟达宣布将推出全新的GPU GB300和B300。外界可能看起来像是一个循序渐进的过程，但实际上，这是一种非常高效的迭代。全新GPU为大模型的推理和训练性能带来了巨大的提升，对于大模型公司和存储供应商来说，无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺（英伟达定制工艺，属于5nm制程节点的一部分）节点上的一个全新流片。定制化工艺做出了调整设计，专用于计算芯片，使得B300浮点运算比B200高50%，GB300和B300的热设计功耗分别达到1.4KW和1.2KW，而相对之下，GB200和B200的热设计功耗分别为1.2KW和1KW。此外，B300内存从8-Hi（8层堆叠）升级到12-Hi HBM3E，每个GPU的HBM容量增加到288GB，但引脚速度保持不变，所以每个GPU内存带宽仍然是8TB/s。不过，此举也意味着至少在未来9个月内，大型电子公司三星都无法获得GB200或GB300订单。

此更新背后，是AI领域的大模型战争中“推理”的下一场战役。而这一变化，也被视为OpenAI O3对推理性能更高要求的一个回应。这项技术通过缓存注意力机制中的键（Key）与值（Value），以减少冗余计算，从而提高模型推理速度。但关键在于缓存之前旧数据，只对新输入Token进行计算，因此对于缓存性能提出了更高要求。

随着H100升级至H200两个改进——内存更高、速度更快——处理长序列时，在FP8精度下的处理速度有显著提升。在所有可比较批处理中交互效率通常提高43%；同时运行比H100更多批处理但成本降低了3倍。此外，更大的内存容量在多方面产生影响，如请求响应之间等待时间长导致糟糕用户体验，如果能缩短则会增加付费意愿，而成本差异巨大，为硬件产品实现了超越摩尔定律、黄氏定律及其他硬件改进速度的地方。

然而，不仅英伟达可以提供这样的提升，其竞争者AMD同样具备这样的能力，并且在某些方面处于优势，比如MI系列产品拥有192GB、256GB甚至288GB的大容量内存。而NVL72系统使得72块GPU能够共享资源并且延迟极低，它们改变了许多关键功能，如思维链延迟降低、分散KVCache以实现更长思维链，以及成本更加合理。

这些改动引发了一波震动，让原有的供应链格局发生变化。原本提供整个BIanca板包括黑暗森林图形处理单元、大力神中央处理单元及512GbpsLPDDR5X记忆体VRM集成印刷电路板上的设备组合等，同时包括交换托盘铜背板，以满足客户需求。但现在客户需要自行采购这些组件，而Axiado取代Aspeed成为混合记忆立方体(HMC)供应商。此外，由美光生产LPCAMM模块替换LPDDR5X焊接形式使用，将允许更多OEM/ODM参与制造计算主板部件。

尽管如此，有些厂家如纬创资通失去了原来的市场份额，因为他们失去了BIanca板生产机会，而工业富联虽然也失去了一部分市场份额但因独家制造SXM Puck模块而获得补偿。此外，与之前不同的是，现在VRM由超大规模厂商或者OEM直接从VRM供应商处采购，而且800G ConnectX-8 NIC网络接口卡使得横向扩展带宽翻倍，同时取消了PCIe Gen 6标准支持，这些改变均影响到了硅谷的大厂们，他们决定放弃基于博通与英伟达双重渠道获取网络接口卡，以完全依赖于英伟达解决方案。这一转变加速了Meta放弃自定义网卡选择全面采用英伟达解决方案的事实，并促使Google遵循相同路径加入该阵营。