当前位置：首页 > 智能输送方案 > 英伟达B300AI推理的加速器自然界中的下马威芯片解析

英伟达B300AI推理的加速器自然界中的下马威芯片解析

智能输送方案
2025-05-13 15:22
0

近日，黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题，英伟达的Blackwell GPU曾多次传出延迟发布的消息，但这并未阻止英伟达持续推进产品更新。在GB200和B200发布6个月后，英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个循序渐进的过程，但实际上，这是非常高效的迭代。

全新GPU为大模型的推理和训练性能带来了巨大的提升，对于大模型公司和存储供应商来说，无疑是一份巨大的圣诞礼物。B300是台积电4NP工艺（英伟达定制工艺，属于5nm制程节点的一部分）节点上的一个全新流片。定制化工艺做了调整设计，专用于计算芯片，使得B300浮点运算比B200高50%，GB300和B300的热设计功耗分别达到1.4KW和1.2KW，比起GB200和B200低400W。

此外，B300内存从8-Hi（8层堆叠）升级到12-Hi HBM3E，每个GPU内存容量增加到288GB，但引脚速度保持不变，所以每个GPU内存带宽仍然是8TB/s。不过，由于三星没有收到黄仁勋带来的礼物，他们至少在未来9个月内不会获得GB200或GB300订单。

英伟达改进GPU内存背后的原因，是为了满足OpenAI O3对推理性能更高要求。在不同批处理大小下，用H100与H200两种GPU处理长序列时，大型语言模型Llama3.1405B在FP8精度下的处理速度相差显著。当输入设置为1000Token输出19000Token时，可以模拟OpenAI o1及o3模型中的思维链。

H100升级至H200两个改进点：更高内存容量、更快速度。这意味着交互效率通常提高43%，运行更多批处理但成本降低三倍。这种提升对用户体验极为重要，因为请求响应时间短则用户满意度提高，而长则会影响付费意愿。此外，更高毛利率头部模型能实现溢价，而落后者则面临较低毛利率竞争。

除了英伟达，还有其他公司如ASIC能够提供类似的性能提升。而AMD在这一领域可能处于有利地位，其MI系列产品拥有192-288GB甚至更高容量。虽然NVL72具有共享记忆、高交互性等优势，但也存在KVCache占用大量经济资源的问题。但NV72能扩展思维链长度至10万以上token，在大批量中工作，并且提供了远超以往十倍以上优越性的价格表现。

对于客户而言，如今需要自行采购计算板以外组件，同时采用LPCAMM模块而非焊接LPDDR5X，这些变化给予OEM/ODM参与托盘供应机会，从而减少纬创资通所失去之份额，即便工业富联失去了同样份额，它们作为SXM Puck独家制造商，却因此获益匪浅。此外VRM由超大规模厂商/OEM直接采购，以支持800G ConnectX-8 NIC横向扩展带宽翻番，同时取消PCIe Gen 6启用，为市场注入稳定性与可预测性。

最后，由于产品更新、机架、冷却系统及电源密度重大变化，大厂难以对服务器进行太多改动，因此Meta放弃博通双方渠道网络卡需求转向完全依赖英伟达；谷歌选择合作取代自研方案。这一切都显示出硅谷各大厂家如何追求成本优化，从CPU到网络再到螺丝金属板；亚马逊除了一些特例，则被迫使用次优配置导致每个GPU成本增重，因其无法构建自己的定制主板。而随着K2V6 400G NIC支持硬件虚拟化管理，该问题即将得到解决，让亚马逊亦能利用NVL72架构进行最大限度发挥其设备能力。

标签：智能输送方案

上一篇：英伟达B300AI推理的加速器手机处理器十大排名中供应链的下马威

下一篇：苹果新品发布会2016智能扫地机器人哪个牌子好苛求洁净体验的5大品牌亮相