近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达继续前进。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个循序渐进的过程,但实际上,这是极为高效的迭代。
全新GPU为大模型推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。这一定制化工艺做出了调整设计,以便专用于计算芯片,使得B300浮点运算比B200高50%,而其热设计功耗分别达到1.4KW和1.2KW,与GB200和B200相比,其热设计功耗分别为1.2KW和1KW。
此外,B300内存从8-Hi升级到12-Hi HBM3E,每个GPU的HBM容量增加到了288GB,但引脚速度保持不变,因此每个GPU内存带宽仍然是8TB/s。不过,由于三星尚未收到黄仁勋带来的礼物,他们至少在接下来的九个月内没有机会获得GB200或GB300订单。
更值得注意的是,大模型在推理中的下一场战事已经揭开帷幕。英伟达对GPU内存进行改进背后的原因,是为了满足OpenAI O3对于推理性能更高要求。在OpenAI O3中采用KVCache技术对模型进行优化,即通过缓存注意力机制中的键(Key)与值(Value),以减少冗余计算,从而提高模型推理速度。关键在于缓存之前旧数据,只对新输入Token进行计算,因此对缓存性能提出了更高要求。
图表显示了不同批处理大小下使用H100及H200两种GPU处理长序列时,Meta开源大模型Llama3.1405B在FP8精度下的处理速度。在输入设置为1000个Token、输出19000个Token的情况下模拟OpenAI o1及o3模型中思维链。当交互效率通常提高43%时,在所有可比较批处理中运行。此外,更高批处理但成本降低了三倍,也意味着更多的内存带宽使得请求与响应之间等待时间显著缩短,从而增强用户体验,并可能导致付费意愿提升。
然而,不仅如此,一切都围绕着能否缩短推理时间展开,因为请求与响应之间等待时间过长会给用户体验造成负面影响。如果能够缩短这一时间,它将直接影响用户购买意愿,以及最终支付额度。这一点尤其重要,因为头部模式具有显著溢价,而落后模式则毛利率较低。
当然,不仅英伟达,还有其他公司也可以实现更好的记忆容量,比如ASIC,而且事实上AMD似乎处于优势地位,其MI系列产品拥有192GB、256GB甚至288GB的大型HBM容量。而且NVL72提供了72个单独工作且共享资源的方式,让它成为唯一能够实现快速交换连接并通过交换机执行全约简操作的地位。此外,它还使得思维链延迟减少,同时支持更长长度思考链,更好地扩展批量大小以降低成本,并进一步提高准确性,最终提升整体性能。而NVL72提供的一个非常重要特性就是它可以将推理长度扩展至10万以上token同时保持良好的经济效益,即使是在大量数据集的情况下也是如此,这对于某些应用来说是一个非常关键因素。
最后,我们必须承认,尽管这些改变可能看起来很微妙,但是它们却产生了深远影响。一方面,对于那些寻求利用最新技术来创造竞争优势的大型企业来说,这些变化无疑是一个令人兴奋又充满挑战性的时代;另一方面,对那些无法适应这些快速变化趋势的小型企业或初创公司来说,则可能是一个更加艰难漫长的人生旅途。但无论如何,都不能忽视这一点:未来几年里,大数据、大智能、大云端将继续塑造我们的世界,而我们所处位置,将决定我们是否能够顺利穿越这个不断变化的地球平衡之轮。