英伟达B300AI推理的加速器手机处理器十大排名中供应链的下马威

近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达持续推进其技术发展。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能看起来像是一个循序渐进的过程,但事实上,这是一种高效率的迭代方式,全新GPU为大模型的推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。该设计通过调整进行了定制化,以便专用于计算芯片,使得B300浮点运算能力比B200提升50%;GB300和B300的热设计功耗分别达到1.4KW和1.2KW,而GB200和B200则分别为1.2KW和1KW。

此外,内存从8-Hi升级到12-Hi HBM3E,每个GPU增加到288GB容量,但是引脚速度保持不变,因此每个GPU内存带宽仍然是8TB/s。不过,由于三星没有收到黄仁勋带来的礼物,他们至少在未来9个月内都无法获得GB200或GB300订单。

对于OpenAI O3对推理性能更高要求所做出的改进,我们可以看到这些改变如何影响了整个行业。这包括H100与H200两款GPU处理长序列时的大模型Llama3.1405B在FP8精度下的处理速度。在不同批处理大小下测试结果显示,在所有可比较批处理中交互效率提高43%,而运行成本降低至原来的三分之一。

除了英伟达,还有其他公司如ASIC也能够提供类似的性能提升,并且AMD在这一领域似乎处于更加有利的地位,其MI系列产品提供192GB、256GB甚至288GB容量,这些都是英伟达提供的大型内存容量之上。而NVL72则使得72个GPU能够共享内存并实现极低延迟,同时支持更长思维链,从而显著提高了系统整体性能,并且成本效益比提升十倍以上。

最后,我们可以看到英伟达对其产品线进行了一系列重大变化,如向SXM Puck模块转变,以及VRM由超大规模厂商或OEM直接采购等。此外,还有800G ConnectX-8 NIC网络接口卡被加入,使得横向扩展带宽翻倍。但市场信息表明,由于产品上市时间、机架、冷却以及电源功率密度等因素,大厂们决定放弃使用较早期版本,即使这意味着他们不得不放弃自定义主板或冷却系统。此举反映出一股强烈趋势,即利用最新技术以最大程度优化资源配置,从而确保最终用户能获得最佳体验。

标签: 智能输送方案

猜你喜欢