近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达继续前进。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个循序渐进的过程,但实际上,这是极为高效的迭代。
全新GPU为大模型推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。这一定制化工艺做出了调整设计,以便专用于计算芯片,使得B300浮点运算比B200高50%,而其热设计功耗分别达到1.4KW和1.2KW,与GB200和B200相比,其热设计功耗分别为1.2KW和1KW。
此外,B300内存从8-Hi(8层堆叠)升级到了12-Hi HBM3E,每个GPU的HBM容量增加到了288GB,但引脚速度保持不变,因此每个GPU内存带宽仍然是8TB/s。不过,由于三星没有收到黄仁勋带来的礼物,他们至少在未来9个月内都不会接到GB200或GB300订单。
GPU卷内存背后的,是大模型下一场战事“推理”。英伟达改进GPU内存背后的,是为了满足OpenAI O3对推理性能更高要求。OpenAI O3采用KVCache技术优化模型推理能力,即通过缓存注意力机制中的键(Key)和值(Value)减少冗余计算,从而提高模型推理速度。关键在于缓存之前旧数据,只对新输入Token进行计算,所以对缓存性能提出了更高要求。
下图是在不同批处理大小下使用H100与H200两种GPU处理长序列时,大型开源模型Llama3.1405B在FP8精度下的处理速度。在输入设置为1000 Token、输出19000 Token的情况下模拟OpenAI o1与o3模式中思维链。
H100升级至H200两个改进:内存更强、速度更快。
由于更多内存带宽(H200 4.8TB/s vs H100 3.35TB/s),所有可比较批处理交互效率通常提高43%。
运行比H100高批量但成本降低了三倍。
在多维度产生影响的是内存在增强用户体验方面作用显著。当请求响应之间等待时间很长时,该现象可能导致糟糕用户体验。如果能够缩短推理时间,将增加用户付费意愿。
成本差异之所以巨大,在某种程度上,比摩尔定律、黄氏定律或其他硬件改进速率都要快得多。在竞争激烈的大型语言系统中,最具能力及差异化的系统能收取显著溢价,而头部系统毛利率超过70%,落后系统毛利率低于20%。
当然,并非只有英伟达可以提升内存在容量方面。此外ASIC同样能实现这一点,而且事实上AMD似乎处于更加有利的地位,因为MI300X提供192GB、MI325X提供256GB以及MI350X提供288GB,这些产品具有较高容量且与英伟达相比有优势。而对于NVL72,它使得72个独立工作单元能够共享相同问题并且延迟极低;世界上没有其他加速器拥有如此完全连接交换网络,以及通过交换机进行全约简操作来实现这一功能。
因此,为实现许多关键功能所需性的变化:
更好的交互性使思维链延迟减少
分散KVCache以实现更长思维链
对比典型服务器,每种设备批量大小扩展成本降低
处理同一问题时搜索更多样本以提高准确性,最终提升整个系统性能
NVL72平台上的预测性质价值翻番以上,在长距离链接上表现尤其突出。这意味着虽然KVCache占用大量资源,对经济效果至关重要,但NVL72却能够将预测长度扩展至10,000以上Token并保持高速操作。此举无疑标志着一种转变,不仅仅是技术创新,更涉及供应链结构重塑的事务,让原本被视作稳固基础设施的一部分变得灵活起来,并允许市场参与者根据自身需求重新配置自己的角色与位置,同时也给予那些掌握核心技术的人们更多权力去决定他们如何利用这些改变来拓宽自己的市场地位或创造新的业务机会,从而进一步巩固它们在行业中的领导地位。
然而,在这种转变过程中,也有一些输家出现,比如纬创资通,他们失去了原有的独家制造权限,而工业富联尽管失去了原有的制造权限但因为成为SXM Puck模块唯一生产商,他们损失得到补偿。但对于亚马逊这样的公司来说,它们不得不面对不同的挑战——它必须适应英国千禧年运动所产生的一系列挑战,如越来越复杂的人类行为模式需要不断学习更新,以保持竞争力的同时,还必须找到有效管理数字资产以支持持续增长的人才策略,这样的压力迫使亚马逊不得不寻求最终解决方案,即使用NV36架构,其中包括冷却方式及其高度集成主板——虽然这样做会导致每颗CPU价格稍微偏贵,但它已经被证明是一个有效途径,可以帮助亚马逊克服过去几年的困境,并准备迎接即将到来的挑战。这一切都是基于一次重大决策——选择NV36架构,而不是像Meta那样依赖NV72或者谷歌选择自己制作网卡,而不是依赖第三方供应商,这显示了他们各自采取了一条不同的路径,一条既充满风险又充满潜力的路径。不论结果如何,一切都会展示出人类智慧探索未知领域所取得的一个又一个里程碑。