英伟达B300AI推理的加速器自然界中的下马威芯片封测龙头股排名前十

近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。

由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达继续前进。

在GB200和B200发布后不久,英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个循序渐进的过程,但实际上,这是极为高效的一次迭代。全新GPU为大模型的推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份宝贵的圣诞礼物。

B300采用台积电4NP工艺(英伟达定制工艺),是一个全新的流片设计。这种定制化工艺进行了一系列调整,专门用于计算芯片,使得B300浮点运算能力比B200高50%,热设计功耗达到1.4KW,比GB200和B200分别低至1.2KW。

此外,内存从8-Hi升级到12-Hi HBM3E,每个GPU的HBM容量增加到288GB,但保持相同速度,因此每个GPU内存带宽仍然为8TB/s。不过三星并没有收到黄仁勋带来的礼物,因为至少在接下来的9个月里,他们都无法获得GB200或GB300订单。

对GPU内存的大幅改进背后,是为了满足OpenAI O3对于推理性能更高要求。

OpenAI O3采用KVCache技术优化模型推理能力,即通过缓存注意力机制中的键(Key)与值(Value)减少冗余计算,从而提高模型推理速度。关键在于缓存之前数据,只对新输入Token进行计算,所以对缓存性能提出了更高要求。

以下图展示了不同批处理大小下,以H100和H200两种GPU处理长序列时,大型开源语言模型Llama3.1405B在FP8精度下的处理速度。在设置中有1000个Token输入、19000个Token输出模拟OpenAI o1与o3模型思维链。

H100升级至H200两个改进:内存更强大、速度更快。由于更多内存带宽,在所有可比较批处理中交互效率通常提高43%;运行比H100更多批处理但成本降低三倍;内存在多方面产生影响。

由于请求响应之间等待时间很长,可能导致糟糕用户体验。如果能缩短推理时间,将增加用户付费意愿;成本差异巨大,在硬件产品实现变化中,比摩尔定律、黄氏定律或其他所有硬件改进速度都要快得多。在竞赛中,最具能力差异化模式能够收取显著溢价,而头部模式毛利率超过70%,落后模式毛利率低于20%。

当然,不仅英伟达可以提高内存容量,ASIC同样可行,并且AMD可能处于优势地位,其MI系列产品提供192GB、256GB甚至288GB容量,这些超越了英伟达标准。

NVL72使72个GPU同时工作,并共享记忆空间且延迟极低,没有其他加速器拥有全互联交换连接及通过交换机进行全约简操作。这使得NVL72实现许多关键功能性质性的变革:

更好的交互性使思维链延迟减小;

72分散KVCache以增强智能思维链;

比典型服务器扩展更好,更经济;

处理问题时搜索更多样本以提高准确性,最终提升性能;

因此NVL72比之前提升10倍以上特别是在长链上的推导性价比。此刻KVCache占用大量资源对经济致命但NVL72支持10万以上token长度与高批量执行。

英国华纳转身,为供应链震动

英国华纳利用其创新解决方案引领市场潮流,同时也面临挑战。这包括提供整个BIANCA板(包含黑暗森林GPUS,GraceCPU,512GbpsLPDDR5X,VRM集成印刷电路板)及其托盘铜背板,以及“SXM Puck”模块上的BIANCA GPUS 及BGAB封装上的GRACE CPU.

然而,对于BIANCA GPUS & BGAB封装上的GRACE CPU,该公司决定不再提供整个BIANCA板,而是只提供"SXM Puck"模块上BIANCA GPUS 及BGAB封装上的GRACE CPU。此外,该公司还将使用美国初创企业AXIADO制造混合记忆立方体(HMC)替换掉之前供应商Aspeed。此外,该公司还会继续向客户提供交换托盘铜背板。但现在客户需要自行采购其余组件,如主控卡上剩余组件,将采取LPCAMM模块形式,而不是焊接LPDDR5X美光或者成为这些模块主要供应商之一。

该转变为OEM/ODM参与计算托盘机会开启以前只有纬创资通工业富联生产BIANCAPRINTED CIRCUIT BOARD 在这一轮供应商调整中纬创资通最大输家失去了BPICARDBOARD份额相反工业富联虽然失去BPICARDBOBOARD份额但是他们作为独家SXM PUCKMODULPRODUCER成功抵消损失 英威達寻找更多SXMPUCKMODULSUPPLIER虽然没有实际下单

另一个重大改变是VRMLetters (电压调节模块) 虽然SXM PUCK有部分VRMLetters SLM (Super Large Scale Manufacturing) 或者 OEM直接从VRMLetters SUPPLIER采购

此外 英威達還將於 GB300 平台 上 提供 800G ConnectX-8 NIC (网络接口卡),這樣就能讓 InfiniBand 和 以太网 横向扩展帶寬翻倍由於發售時間影響 英威達之前取消 GB200 的ConnectX-8 并放弃 Bianca 板启用PCIe Gen 6 接口最新一代标准

市場信息顯示 GB200 和 GB300 的延遲發布給硅谷的大廠們帶來了很大的影響。而這背後傳递出的信號是從第三季度,大量訂單轉向了 GB300 截至最後周末,上述大廠決定完全使用 GB300 一部分原因是它們對於性能與記憶體大小需求,一方面則因為它們已經控制住了他們訓練機器人數據庫命運

受到產品發售時間、高架構設計變化、大冷却系统功率密度之巨變所影響,大厂难以在服务器层面做太多修改导致Meta放弃希望從博通與英偉達兩個渠道購買網絡介面卡(NICSs),轉而完全依賴於英偉達谷歌也放棄自家的網絡介面卡選擇合作

硅谷的大企業習慣優化成本從CPU 到網路再到螺絲與金屬薄膜

亚马逊是一个例外,由于亚马逊使用PCIe 交换机及效率较低弹性织物适配器NIC,他们无法像Meta、Google等部署NVL72,所以不得不使用NV36,这也导致每个GPU成本更高因为背板与交换机内容更多

Gb 30 0 出现给亚马逊带来转变 大厂可以定制主版冷却系统等功能 这使得亚马逊能够构建自己的定制主版水冷系统随着K2V6 400 G NIC 在2025年第三季度支持 HVM 硬件虚拟管理 亚马逊同样可以使用 NV L7 架构并

标签: 智能输送方案

猜你喜欢