近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达前进。六个月之后,英伟达宣布推出全新的GPU GB300和B300。外界看似是顺序渐进,但事实上,这是一种高效率的迭代。在大模型推理和训练性能方面,全新GPU带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一个巨大的礼物。
B300采用台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的全新流片设计。这一定制化工艺调整了计算芯片设计,使得B300在浮点运算能力上比B200提高50%。GB300和B300的热设计功耗分别为1.4KW和1.2KW,而GB200和B200则分别为1.2KW和1KW。
此外,B300内存从8-Hi升级到12-Hi HBM3E,每个GPU内存容量增加到288GB,但引脚速度保持不变,因此每个GPU内存带宽仍然为8TB/s。不过,此举对三星而言似乎并非佳音,因为至少在未来9个月里,他们将无法获得GB200或GB300订单。
更深层次地,这些改进背后,是为了满足OpenAI O3对于推理性能更高要求。在OpenAI O3中采用KVCache技术优化模型推理能力,即通过缓存注意力机制中的键(Key)与值(Value),减少冗余计算,从而提高模型推理速度。此时关键就是缓存之前数据,只对新输入Token进行计算,所以对缓存性能提出了更高要求。
图示展示不同批处理大小下,在FP8精度下处理长序列时,大型语言模型Llama3.1405B在H100与H200两种GPU下的处理速度。在1000Token输入、19000Token输出模拟OpenAI o1与o3思维链的情况下,由Meta开源的大型语言模型Llama3.1405B进行测试。
H100升级至H200两个改进点是:内存更强、速度更快。由于更多内存带宽(H200 4.8TB/s vs H100 3.35TB/s),所有可比较批处理交互效率通常提高43%,运行较高批处理但成本降低了三倍。此外,更大的内存在多维度产生影响。如果能缩短推理时间,将提升用户体验意愿。而成本差异巨大,在某种程度上,比摩尔定律或其他硬件改进都要快得多。在竞争激烈的大型语言模型领域,最具优势及差异化的模型能收取显著溢价,而头部模式毛利率超过70%,落后模式毛利率低于20%。
然而,不仅英伟达可以提供这些改进性别同样如此,而且AMD可能处于更加有利的地位,其MI系列产品如MI325X拥有256GB等内部记忆器,它们比英伟达还要丰富且复杂。此外,加速器,如NVL72,使得72块相同类型的加速器能够共享记忆空间并协作工作,并且延迟极低。这类加速器在世界上独树一帜,没有其他设备能实现这样的全互联交换连接功能,以及通过交换机进行全约简操作。此类设备使许多关键功能得到质感变化:
更好的交互性使思维链延迟更短。
分散KVCache以实现更长思维链。
在典型服务器相比,更好扩展性意味着成本降低。
处理同一问题时,可以搜索更多样本以提高准确性最终提升性能。
因此,NVL72显示其翻译性价比远超之前,一特别是在长连续思考链中尤其如此。KVCache占用大量资源,对经济效果致命,但是NVL72却能够将连续思考长度扩展至10万以上token,同时保持高批量运行状态。
同时,与之相伴的是 英伟达转身事件,也给全球供应链造成了震动。一方面改变是对于原有的BIanca板构成,将黑暗色调GPU+Bianca CPU+512GB LPDDR5X + VRM集成到一个印刷电路板上,还包括交换托盘及铜背板;另一方面,则提供“SXM Puck”模块上的黑暗色调GPU + BGA封装CPU,并由美国初创公司Axiado提供混合式立方体(HMC)替代Aspeed以前所做之事项。而这也意味着客户需要自行采购剩余组件,而不是依赖特定的供货商来焊接LPDDR5X 内容现在来自美光或者成为主导者之一。但这一转变,为OEM/ODM厂家打开了一扇门,让他们参与生产这个SXM Puck卡槽,以往只有纬创资通才有机会生产BIanca板,现在工业富联也加入其中尽管失去了BIanca版面份额但是因为工业富联作为唯一制造SXM Puck模块制造商所以损失被抵消掉。而目前尚未看到实际订购发生的情况发生明确指向此方向的一个重要信号是在元年夏天,大量订单转向到了GBK3030周间所有主要厂家决定使用GBK3030原因既包含了它具有更强壮表现力以及增强性的记忆储备,也包含了英国已经控制住那些用于训练大规模系统所需核心元素的事实从第三季度开始市场趋势表明虽然原先计划发售的是GBK202020周间所有主要厂家选择使用的是GBK20303周间市场信息表明GTK20404周间市场信息表明GTG20505周间市场信息表明GTG20606周间市场信息表明GTG20707周间市场信息表明GTG20808
这样导致了一场硅谷巨头们习惯于寻求成本优化,从CPU再到网络,再到螺丝甚至金属板亚马逊除外亚马逊利用定制方式避免寻求优选配置即便如此由于亚马逊采用的PCIe 交换机及其效率较低弹性适配器 NIC 无法像Meta, Google, Microsoft, Oracle, X and Coreweave那样部署NV36架构必须使用NV36架构每个单独颗粒价格因含有更多内容而增加该现象促使亚马逊接受进一步挑战迎接新的可能性随着更多组件采用水冷装置,以及K2V6 400 G NIC 将支持硬件虚拟管理环境 (HVM) 在第二季度2025年支持该情况下亚马逊也有机会使用NVL72架设