英伟达B300AI推理的加速器自然界中的下马威揭秘芯片与集成电路半导体区别

近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达前行。在GB200和B200发布后半年,英伟达宣布将推出全新的GPU GB300和B300。外界看来似乎是一个顺序渐进的过程,但实际上,这是一种高效率的迭代方式,全新GPU为大模型的推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。定制化工艺做了调整设计,专用于计算芯片,使得B300浮点运算比B200高50%,GB300和B300热设计功耗分别达到1.4KW和1.2KW,比GB200和B200热设计功耗分别低至1.2KW和1KW。此外,内存从8-Hi升级到12-Hi HBM3E,每个GPU HBM容量增加到288GB,但引脚速度保持不变,所以每个GPU内存带宽仍然是8TB/s。不过,由于三星没有收到黄仁勋带来的礼物,他们至少在未来9个月内不会接收到GB200或GB300订单。

GPU卷内存背后的,是大模型下一场“推理”的战事。英伟达改进GPU内存背后,是为了满足OpenAI O3对推理性能更高要求。在OpenAI O3中采用KVCache技术优化模型推理能力,即通过缓存注意力机制中的键(Key)与值(Value),减少冗余计算,从而提高模型推理速度。关键是在缓存之前旧数据,同时仅对新输入Token进行计算,因此对缓存性能提出了更高要求。

下图展示的是不同批处理大小下使用H100与H200两种GPU处理长序列时,大型开源模型Llama3.1405B在FP8精度下的处理速度。在输入设定为1000个Token,上输出19000个Token,以模拟OpenAI o1及o3中思维链。此处H100升级至H200两个改进:内存更强劲、速度更快。由于更多内存在此刻可比较批处理中交互效率通常提高43%;运行比H100还要多的大批量但成本降低了三倍;增强性在多维度产生影响。

由于请求与响应之间等待时间过长,可能会导致糟糕用户体验。如果能缩短推理时间,将增加用户付费意愿。而成本差异极大,在某种程度上,比摩尔定律、黄氏定律或其他所有硬件改进速度都要快速许多。这对于头部模式而言,其毛利率超过70%,而落后的模式则毛利率低于20%。

当然,并非只有英伟达能够提升记忆容量,一些ASIC同样能实现这一点,而且事实上AMD可能位于优势地位,其MI系列产品如192GB MI325X或256GB MI350X拥有较高容量。但是NVL72使得72个单元能够共享相同问题,并且延迟极低,没有其他加速器有如此完善连接以及通过交换机进行全约简操作;它提供了性价比显著提高10倍以上特别是在长链条上的表现,而KVCache占用经济效益致命,但NVL72可以扩展思维链长度至十万以上token并在大量批次中工作。

因此,对于客户来说,最具竞争力的解决方案就是寻找具有最佳价值的事务所,不断创新以适应不断变化的情景。而对于那些想要获得最大潜力的企业来说,它们必须考虑如何利用这些最新技术以保持领先地位,同时也要关注如何有效管理其资源以确保他们能够持续创新并保持竞争力。这是一个充满挑战性的时代,我们需要不断学习新的技能,以适应不断变化的情况,以及探索各种可能性来创造最好的解决方案。

标签: 智能输送方案

猜你喜欢