当前位置：首页 > 智能输送方案 > 英伟达B300AI推理的加速器自然界中的下马威芯片封测龙头股排名前十

英伟达B300AI推理的加速器自然界中的下马威芯片封测龙头股排名前十

智能输送方案
2025-05-13 14:34
0

近日，黄仁勋让海外科技圈提前享受了圣诞节的喜悦。

由于硅、封装以及芯片背板的问题，英伟达的Blackwell GPU曾多次传出延迟发布的消息，但这并未阻止英伟达继续前进。

在GB200和B200发布后不久，英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个循序渐进的过程，但实际上，这是极为高效的一次迭代。全新GPU为大模型的推理和训练性能带来了巨大的提升，对于大模型公司和存储供应商来说，无疑是一份宝贵的圣诞礼物。

B300采用台积电4NP工艺（英伟达定制工艺），是一个全新的流片设计。这种定制化工艺进行了一系列调整，专门用于计算芯片，使得B300浮点运算能力比B200高50%，热设计功耗达到1.4KW，比GB200和B200分别低至1.2KW。

此外，内存从8-Hi升级到12-Hi HBM3E，每个GPU的HBM容量增加到288GB，但保持相同速度，因此每个GPU内存带宽仍然为8TB/s。不过三星并没有收到黄仁勋带来的礼物，因为至少在接下来的9个月里，他们都无法获得GB200或GB300订单。

对GPU内存的大幅改进背后，是为了满足OpenAI O3对于推理性能更高要求。

OpenAI O3采用KVCache技术优化模型推理能力，即通过缓存注意力机制中的键（Key）与值（Value）减少冗余计算，从而提高模型推理速度。关键在于缓存之前数据，只对新输入Token进行计算，所以对缓存性能提出了更高要求。

以下图展示了不同批处理大小下，以H100和H200两种GPU处理长序列时，大型开源语言模型Llama3.1405B在FP8精度下的处理速度。在设置中有1000个Token输入、19000个Token输出模拟OpenAI o1与o3模型思维链。

H100升级至H200两个改进：内存更强大、速度更快。由于更多内存带宽，在所有可比较批处理中交互效率通常提高43%；运行比H100更多批处理但成本降低三倍；内存在多方面产生影响。

由于请求响应之间等待时间很长，可能导致糟糕用户体验。如果能缩短推理时间，将增加用户付费意愿；成本差异巨大，在硬件产品实现变化中，比摩尔定律、黄氏定律或其他所有硬件改进速度都要快得多。在竞赛中，最具能力差异化模式能够收取显著溢价，而头部模式毛利率超过70%，落后模式毛利率低于20%。

当然，不仅英伟达可以提高内存容量，ASIC同样可行，并且AMD可能处于优势地位，其MI系列产品提供192GB、256GB甚至288GB容量，这些超越了英伟达标准。

NVL72使72个GPU同时工作，并共享记忆空间且延迟极低，没有其他加速器拥有全互联交换连接及通过交换机进行全约简操作。这使得NVL72实现许多关键功能性质性的变革：

更好的交互性使思维链延迟减小；

72分散KVCache以增强智能思维链；

比典型服务器扩展更好，更经济；

处理问题时搜索更多样本以提高准确性，最终提升性能；

因此NVL72比之前提升10倍以上特别是在长链上的推导性价比。此刻KVCache占用大量资源对经济致命但NVL72支持10万以上token长度与高批量执行。

英国华纳转身，为供应链震动

英国华纳利用其创新解决方案引领市场潮流，同时也面临挑战。这包括提供整个BIANCA板（包含黑暗森林GPUS,GraceCPU,512GbpsLPDDR5X,VRM集成印刷电路板）及其托盘铜背板，以及“SXM Puck”模块上的BIANCA GPUS 及BGAB封装上的GRACE CPU.

然而，对于BIANCA GPUS & BGAB封装上的GRACE CPU，该公司决定不再提供整个BIANCA板，而是只提供"SXM Puck"模块上BIANCA GPUS 及BGAB封装上的GRACE CPU。此外，该公司还将使用美国初创企业AXIADO制造混合记忆立方体(HMC)替换掉之前供应商Aspeed。此外，该公司还会继续向客户提供交换托盘铜背板。但现在客户需要自行采购其余组件，如主控卡上剩余组件，将采取LPCAMM模块形式，而不是焊接LPDDR5X美光或者成为这些模块主要供应商之一。

该转变为OEM/ODM参与计算托盘机会开启以前只有纬创资通工业富联生产BIANCAPRINTED CIRCUIT BOARD 在这一轮供应商调整中纬创资通最大输家失去了BPICARDBOARD份额相反工业富联虽然失去BPICARDBOBOARD份额但是他们作为独家SXM PUCKMODULPRODUCER成功抵消损失英威達寻找更多SXMPUCKMODULSUPPLIER虽然没有实际下单

另一个重大改变是VRMLetters (电压调节模块) 虽然SXM PUCK有部分VRMLetters SLM (Super Large Scale Manufacturing) 或者 OEM直接从VRMLetters SUPPLIER采购

此外英威達還將於 GB300 平台上提供 800G ConnectX-8 NIC (网络接口卡)，這樣就能讓 InfiniBand 和以太网横向扩展帶寬翻倍由於發售時間影響英威達之前取消 GB200 的ConnectX-8 并放弃 Bianca 板启用PCIe Gen 6 接口最新一代标准

市場信息顯示 GB200 和 GB300 的延遲發布給硅谷的大廠們帶來了很大的影響。而這背後傳递出的信號是從第三季度，大量訂單轉向了 GB300 截至最後周末，上述大廠決定完全使用 GB300 一部分原因是它們對於性能與記憶體大小需求，一方面則因為它們已經控制住了他們訓練機器人數據庫命運

受到產品發售時間、高架構設計變化、大冷却系统功率密度之巨變所影響，大厂难以在服务器层面做太多修改导致Meta放弃希望從博通與英偉達兩個渠道購買網絡介面卡(NICSs)，轉而完全依賴於英偉達谷歌也放棄自家的網絡介面卡選擇合作

硅谷的大企業習慣優化成本從CPU 到網路再到螺絲與金屬薄膜

亚马逊是一个例外，由于亚马逊使用PCIe 交换机及效率较低弹性织物适配器NIC，他们无法像Meta、Google等部署NVL72，所以不得不使用NV36，这也导致每个GPU成本更高因为背板与交换机内容更多

Gb 30 0 出现给亚马逊带来转变大厂可以定制主版冷却系统等功能这使得亚马逊能够构建自己的定制主版水冷系统随着K2V6 400 G NIC 在2025年第三季度支持 HVM 硬件虚拟管理亚马逊同样可以使用 NV L7 架构并

标签：智能输送方案

上一篇：微波杀菌新宠小型食品微波杀菌机的兴起

下一篇：水箱不锈钢报价选择耐久性与节能的双重利器