当前位置：首页 > 智能输送方案 > 英伟达B300AI推理的加速器中国芯片自给之梦在自然选择中浮现为供应链下马威

英伟达B300AI推理的加速器中国芯片自给之梦在自然选择中浮现为供应链下马威

智能输送方案
2025-05-13 01:12
0

近日，黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题，英伟达的Blackwell GPU曾多次传出延迟发布的消息，但这并未阻止英伟达继续前进。在GB200和B200发布六个月后，英伟达宣布推出全新的GPU GB300和B300。这一系列产品为大模型推理和训练性能带来了巨大的提升，对于大型数据公司和存储供应商来说，无疑是一份巨大的礼物。

B300是基于台积电4NP工艺（英伟达定制工艺）的全新流片设计，其定制化工艺调整专用于计算芯片，使得其浮点运算能力比B200高50%。相较之下，GB300和B300的热设计功耗分别达到1.4KW和1.2KW，而GB200和B200则分别为1.2KW和1K。

此外，B300内存从8-Hi升级到12-Hi HBM3E，每个GPU的HBM容量增加到288GB，但引脚速度保持不变，因此每个GPU内存带宽仍然是8TB/s。不过，这也意味着至少在未来9个月内，三星不会收到GB200或GB300订单。

对于OpenAI O3对推理性能更高要求的需求，以及KVCache技术对模型推理能力优化所做出的贡献，这些都促使英伟达改进其GPU内存，以满足这些需求。随着H100升级至H200两个改进——更高的内存带宽以及更快的速度——在所有可比较批处理中交互效率通常提高43%，而运行成本降低了3倍。此外，更高的内存容量将产生多方面影响，如减少请求与响应之间等待时间，从而可能提高用户体验，并增加用户付费意愿。

然而，不仅英伟达，在大模型竞赛中最具差异化能力的大型模型能够获得显著溢价，而头部模式毛利率超过70%，落后模式毛利率低于20%。AMD同样能提供类似的增强功能，比如MI325X拥有256GB内部RAM，比英伟达还要高。而且MI350X具有288GB RAM，这在当今市场上表现出了极大的优势。

为了实现长序列思维链（增强智能），NVL72使得72个GPU能够分散缓存在KVCache上，同时实现更好的交互性、批量大小扩展以及搜索更多样本以提升准确性，最终提升模型性能。在处理同一问题时，可以搜索更多样本以提高准确性，最终提升模型性能，因此NVL72在推理中的价值比之前提高了10倍以上，而且可以进行超长序列操作，即10万Token及以上，为经济效益提供了致命打击。

对于供应链动态，由于产品上市时间、机架设计、冷却系统变化等重大因素，大厂们无法太多地改变服务器层级对原始设备制造商（OEM）产品进行修改。这导致Meta放弃了希望从博通两家渠道采购网络接口卡（NICs）的希望转向完全依赖英伟達。而谷歌也放弃自家的网络接口卡选择与英偉達合作。亚马逊作为例外，因为他们采用定制化策略“”选择了一种次优配置，他们不得不使用NVL36架构，这导致每个GPU成本更高，因为背板内容更多。此举给予亚马逊机会构建自己的定制主板，并利用水冷系统支持K2V6 400G NIC来支持硬件虚拟化管理，从而使用NVL72架构进行进一步优化。