英伟达B300AI推理的加速器中国芯片自给之梦在自然选择中浮现为供应链下马威

近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达继续前进。在GB200和B200发布六个月后,英伟达宣布推出全新的GPU GB300和B300。这一系列产品为大模型推理和训练性能带来了巨大的提升,对于大型数据公司和存储供应商来说,无疑是一份巨大的礼物。

B300是基于台积电4NP工艺(英伟达定制工艺)的全新流片设计,其定制化工艺调整专用于计算芯片,使得其浮点运算能力比B200高50%。相较之下,GB300和B300的热设计功耗分别达到1.4KW和1.2KW,而GB200和B200则分别为1.2KW和1K。

此外,B300内存从8-Hi升级到12-Hi HBM3E,每个GPU的HBM容量增加到288GB,但引脚速度保持不变,因此每个GPU内存带宽仍然是8TB/s。不过,这也意味着至少在未来9个月内,三星不会收到GB200或GB300订单。

对于OpenAI O3对推理性能更高要求的需求,以及KVCache技术对模型推理能力优化所做出的贡献,这些都促使英伟达改进其GPU内存,以满足这些需求。随着H100升级至H200两个改进——更高的内存带宽以及更快的速度——在所有可比较批处理中交互效率通常提高43%,而运行成本降低了3倍。此外,更高的内存容量将产生多方面影响,如减少请求与响应之间等待时间,从而可能提高用户体验,并增加用户付费意愿。

然而,不仅英伟达,在大模型竞赛中最具差异化能力的大型模型能够获得显著溢价,而头部模式毛利率超过70%,落后模式毛利率低于20%。AMD同样能提供类似的增强功能,比如MI325X拥有256GB内部RAM,比英伟达还要高。而且MI350X具有288GB RAM,这在当今市场上表现出了极大的优势。

为了实现长序列思维链(增强智能),NVL72使得72个GPU能够分散缓存在KVCache上,同时实现更好的交互性、批量大小扩展以及搜索更多样本以提升准确性,最终提升模型性能。在处理同一问题时,可以搜索更多样本以提高准确性,最终提升模型性能,因此NVL72在推理中的价值比之前提高了10倍以上,而且可以进行超长序列操作,即10万Token及以上,为经济效益提供了致命打击。

对于供应链动态,由于产品上市时间、机架设计、冷却系统变化等重大因素,大厂们无法太多地改变服务器层级对原始设备制造商(OEM)产品进行修改。这导致Meta放弃了希望从博通两家渠道采购网络接口卡(NICs)的希望转向完全依赖英伟達。而谷歌也放弃自家的网络接口卡选择与英偉達合作。亚马逊作为例外,因为他们采用定制化策略“”选择了一种次优配置,他们不得不使用NVL36架构,这导致每个GPU成本更高,因为背板内容更多。此举给予亚马逊机会构建自己的定制主板,并利用水冷系统支持K2V6 400G NIC来支持硬件虚拟化管理,从而使用NVL72架构进行进一步优化。

标签: 智能输送方案

猜你喜欢