近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达持续推进产品更新。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个循序渐进的过程,但实际上,这是非常高效的迭代。
全新GPU为大模型推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。B300采用台积电4NP工艺(英伟达定制工艺),在5nm制程节点上进行优化,使得B300浮点运算比B200提高50%。热设计功耗分别达到1.4KW和1.2KW,比GB200和B200低100W。
此外,内存从8-Hi升级到12-Hi HBM3E,每个GPU增加到288GB容量,但引脚速度保持不变,因此每个GPU内存带宽仍然是8TB/s。不过,三星并没有收到黄仁勋带来的礼物,因为至少在未来9个月内,他们都无法获得GB200或GB300订单。
更值得一提的是,大模型下一次竞赛“推理”背后的关键技术——AI KVCache。这项技术通过缓存注意力机制中的键(Key)和值(Value)来减少冗余计算,从而提高模型推理速度。在处理长序列时,如Meta开源大模型Llama3.1405B,在FP8精度下处理速度可以得到显著提升。此时H100与H200两种GPU之间最明显的区别在于:H100拥有更高内存带宽,而H200则有更强的心智链能力。
对于客户而言,最重要的是能否缩短推理时间,以提供流畅体验,并促使用户愿意支付更多费用。大型模式通常会以70%以上的溢价销售,而落后者则只能维持20%以下毛利率。此外,与其他厂商相比,如AMD也能提供类似的性能提升,其MI系列芯片可配置192GB至288GB内存容量。
最后,由于NVL72能够实现72个GPU共享内存且延迟极低,它对思维链长度产生了深远影响,使得成本更加经济实惠,为客户提供了10倍以上性能提升。此事件中最重要的一点是英伟达如何重新定义其产品线,并对整个供应链产生影响,让所有参与方必须适应这一转变,不仅限于制造商,还包括终端用户亚马逊等公司需要根据新规格调整自己的组装策略。