近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达继续前进。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个循序渐进的过程,但实际上,这是极为高效的迭代。
全新GPU为大模型推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。B300是使用台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)制造的一个全新流片设计,专用于计算芯片,使得B300浮点运算比B200提高50%。
此外,B300内存从8-Hi升级到12-Hi HBM3E,每个GPU容量增加至288GB,但引脚速度保持不变,因此每个GPU内存带宽仍然为8TB/s。不过,由于三星未能获得黄仁勋带来的礼物,他们至少在未来9个月内没有机会接收到GB200或GB300订单。
GPU卷内存背后的,是大模型下一场战事“推理”的深度分析。英伟达改进GPU内存背后,是为了满足OpenAI O3对推理性能更高要求。在OpenAI O3采用KVCache技术优化模型推理能力时,即通过缓存注意力机制中的键(Key)和值(Value)减少冗余计算,从而提高模型推理速度。这关键在于缓存在旧数据中仅对新输入Token进行计算,所以对缓存性能提出了更高要求。
随着H100升级到H200两个改进:更高的内存容量,更快的速度。在所有可比较批处理中交互效率通常提高43%,运行比H100更多批处理但成本降低了三倍。这些改进在多维度产生影响,如请求响应等待时间长可能导致糟糕用户体验,而缩短推理时间则会增加用户付费意愿。此外,在大型模型竞赛中,最具能力差异化的大型模式能够收取显著溢价,并且头部模式毛利率超过70%,而落后模式毛利率低于20%。
当然,不仅英伟达可以提升内存容量,ASIC同样能够做到,而且事实上AMD可能处于更有利的地位,其MI系列产品如192GB、256GB及288GB都超越了英伟达提供容量。此外,在自然界中的芯片查询下马威中,加强智能链条延迟,以及良好的批量大小扩展使成本更低,为实现许多关键功能带来了性质上的变化,使NVL72成为一种非常有效工具,以10万以上token长度进行长期思考,并在大量数据处理中工作。
对于供应链震动,一方面是在SXM Puck模块上的转变,为OEM/ODM提供参与生产计算托盘的机会;另一方面是VRM由超大规模厂商或者OEM直接采购,以及800G ConnectX-8 NIC横向扩展带宽翻倍。而市场信息表明,大厂们决定放弃使用GB200转向使用更加先进、高性能与较大内储备配置的大型设备以适应不断增长的大型数据需求,同时也因为价格优势与持续创新引领市场趋势所致。
总之,此次事件不仅标志着英国华纳公司(British Warren)勇敢地挑战自我限制,还证明了其领导者黄仁勋一直致力于创造价值并激励他人追求卓越。这一行动无疑会被视作历史性的转折点,它展示了一种新的方式来看待工作环境,让员工感到自己的努力得到认可,并鼓励他们去探索自己真正潜力的可能性。一旦这种文化深入人心,那么任何组织都能变得更加强大,因为它已经拥有了最宝贵的人才——那些渴望成就、不断学习并且乐于分享知识的人们。