英伟达B300AI推理的加速器2023年28纳米芯国产光刻机在自然界中的下马威

近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达继续前进。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个循序渐进的过程,但事实上,这是一种高效的迭代方式,全新GPU为大模型推理和训练性能带来了巨大的提升,对大模型公司和存储供应商来说,无疑是巨大的圣诞礼物。

B300采用台积电4NP工艺(英伟达定制工艺),属于5nm制程节点的一部分,是一款全新的流片设计,专用于计算芯片,使得B300浮点运算比B200高50%,GB300和B300的热设计功耗分别达到1.4KW和1.2KW,与之相比,GB200和B200的热设计功耗分别为1.2KW和1KW。此外,B300内存从8-Hi(8层堆叠)升级到12-Hi HBM3E,每个GPU内存容量增加到288GB,但引脚速度保持不变,因此每个GPU内存带宽仍然是8TB/s。不过,这也意味着至少在未来9个月内,大型光刻机制造商三星没有机会获得GB200或GB300订单。

更重要的是,这背后的故事涉及到了AI推理的大模型战争。在OpenAI O3中,对于推理性能更高要求进行了改进。这包括KVCache技术优化,以减少冗余计算,从而提高模型推理速度。关键在于缓存之前数据,只对新输入Token进行计算,所以对缓存性能提出了更高要求。

与此同时,一些大型科技公司,如Meta、谷歌等,也开始转向使用NVL72架构,其交互性使得思维链延迟更低,可以实现长思维链,并且成本效益显著提升。在这个背景下,大厂们纷纷放弃了自行生产网络接口卡,而选择依赖于英伟达提供的800G ConnectX-8 NIC,以便横向扩展带宽。此举不仅提高了服务器层面的处理能力,还进一步巩固了英伟达在市场上的领导地位。

然而,这一系列事件也影响到了供应链,因为对于一些组件,如VRM(电压调节模块)、HMC(混合内存立方体)等,有些原有供应商失去了订单,而其他公司则获得了一席之地。这表明,在这个快速发展、高度竞争性的行业中,不断调整策略以适应市场变化是必不可少的一部分。

标签: 智能输送方案

猜你喜欢