难道不是2023年28纳米芯国产光刻机让英伟达B300成为了AI推理的加速器而供应链却遭遇了下马威吗

2023年,28纳米芯片国产光刻机的崛起,让英伟达B300成为了AI推理的「加速器」,而供应链却遭遇了「下马威」。黄仁勋让海外科技圈提前过上了圣诞节,因为硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的信息,但这并没有让英伟达的脚步放缓。在GB200和B200发布6个月后,英伟达就宣布将推出全新的GPU GB300和B300。外界看来似乎是一个循序渐进的过程,但事实上,这是非常高效的迭代。全新GPU为大模型的推理和训练性能带来巨大的提升,对大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。定制化工艺做了一个调整设计,专用于计算芯片,使得B300浮点运算比B200高50%,GB300和B300的热设计功耗分别达到1.4KW和1.2KW,相比之下,GB200和B200的热设计功耗分别为1.2KW和1KW。此外,B300内存从8-Hi(8层堆叠)升级到12-Hi HBM3E,每个GPU内存容量增加到288GB,但引脚速度将保持不变,所以每个GPU内存带宽仍然是8TB/s。不过,由于三星没有收到黄仁勋带来的礼物,他们至少在未来的9个月内都不会拿到GB200或GB300订单。

GPUs卷内存背后的,是大模型下一场战事“推理”。英伟达改进GPU内存背后的,是满足OpenAI O3对推理性能更高要求。在OpenAI O3采用KVCache技术优化模型推理能力,即通过缓存注意力机制中的键(Key)值(Value),减少冗余计算,从而提高模型推理速度。这就是缓存在之前旧数据,只对新输入Token进行计算,所以对缓存在性能提出了更高要求。

图表展示不同批处理大小下,在Meta开源大模型Llama 3.1405 B在FP8精度下的处理速度。输入设置为1000 Token输出19000 Token模拟OpenAI o1与o3中思维链。在H100升级至H200两个改进:更多内存、更快速度由于更多带宽H200 4.8TB/s vs H100 3.35TB/s交互效率通常提高43%;H200运行比H100更高批处理但成本降低了三倍;多维度影响因素导致请求响应等待时间长可能会给用户体验造成负面影响,如果能缩短这个时间,将增加用户付费意愿;成本差异巨大,在中代更新中硬件产品实现变化超过摩尔定律、黄氏定律或其他任何硬件改进速度都要快得多。

当然,不仅有英伟达可以提高容量,还有ASIC同样可以做到的,而且AMD可能处于更加有利的地位,其MI系列产品如192GB MI325X256GB MI350X288G每种产品较之于 英伟达提供更多容量且价格相对较低。

NVL72关键在其使72 GPUs共享相同问题并且延迟极低,而世界上没有其他加速器拥有这样的全互联交换连接及能通过交换机进行全约简操作。NVL72提供性价比提升10倍以上特别是在长推理链上 KVcache占用经济效益致命但NVl72能够将长度扩展至十万token并在高批量中进行

因此NVl72被认为具有明显优势,并且因为它能够支持最复杂的大型任务,它们对于企业来说变得不可或缺

此外还有一些重大变化包括VRM由超大规模厂商直接从VRM供应商采购,以及800G ConnectX-8 NIC横向扩展带宽翻倍。但市场显示由于上市时间问题导致很多订单转向了以太网连接接口卡,而这些改变也意味着服务器层级无法轻易修改

最后,大厂们发现使用单一渠道采购网络接口卡成为最佳选择,比如元即放弃希望从博通两边同时采购网络接口卡转而完全依赖于Intel此举允许他们获得单一来源优惠以降低成本

标签: 智能输送方案

猜你喜欢