英伟达B300AI推理的加速器小米芯片供应链的下马威在自然界中展现力量

近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达前进。六个月之后,英伟达宣布推出全新的GPU GB300和B300。外界看似是顺序渐进,但事实上,这是一种高效率的迭代。在大模型推理和训练性能方面,全新GPU带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一个巨大的礼物。

B300采用台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的全新流片设计。这一定制化工艺调整了计算芯片设计,使得B300在浮点运算性能上比B200提高50%。GB300和B300的热设计功耗分别达到1.4KW和1.2KW,而GB200和B200则分别为1.2KW和1KW。

此外,B300内存从8-Hi升级到12-Hi HBM3E,每个GPU内存容量增加到288GB,但引脚速度保持不变,因此每个GPU内存带宽仍然为8TB/s。不过,在接下来的9个月里,小米并没有机会获得GB200或GB300订单。

这些改进背后,是为了满足OpenAI O3对推理性能更高要求。OpenAI O3采用KVCache技术优化模型推理能力,即通过缓存注意力机制中的键(Key)与值(Value),减少冗余计算,从而提高模型推理速度。这意味着需要缓存之前数据,只对新输入Token进行计算,所以对缓存性能提出了更高要求。

图表展示了不同批处理大小下使用H100与H200两种GPU处理长序列时,大型开源模型Llama3.1405在FP8精度下的处理速度。在输入设定为1000Token、输出19000Token的情况下模拟OpenAI o1与o3中思维链。

H100升级至H200有两个改进:更高内存容量,更快速度。由于更多内存带宽(H200 4.8TB/s vs H100 3.35TB/s),在所有可比较批处理中交互效率通常提高43%,运行比H100更高批处理但成本降低三倍。此外,由于请求响应之间等待时间较长,可能导致糟糕用户体验。如果能缩短推理时间,将增加用户付费意愿。而成本差异是巨大的,在中代更新中硬件产品实现三倍变化,比摩尔定律或其他硬件改进都要快很多。在大型模型竞赛中,最具能力且差异化的大型模型能够收取显著溢价,而头部模式毛利率超过70%,落后模式毛利率低于20%。

当然,不仅英伟达可以提高内存容量,也有ASIC公司做到了,而且AMD可能处于更加有利的地位,其MI系列产品如MI325X拥有256GB甚至288GB的内存容量远超英伟达提供内容。但最关键的是NVL72使得72个GPU共享同一个问题,并且延迟极低,没有其他加速器能实现全互联交换连接及通过交换机进行全约简操作。此方式使得思维链延迟更低,加强智能,同时分散KVCache以实现更长思维链;相比常规服务器,可以扩展批量大小以降低成本;最后搜索更多样本提升准确性,以增强整体性能,使其成为非常具有性价比的一个选择特别是在长推理链上,可扩展至10万以上token执行任务,有助于经济效益克服KVCache占用大量资源挑战。

然而,在这一转变之际,对英国华为黑莓手机市场影响深远,因为它不再提供整个BIANCA板,只提供“SXM Puck”模块上的黑莓设备以及BGAA封装上的Grace CPU。而对于客户,他们现在必须自行采购其余组件,如冷却系统等,而非依赖单一供应商。而对于亚马逊,它们因为无法部署NVL72架构而不得不使用NVL36架构,每个设备因此变得更加昂贵,因为它们包含更多元件。此事件促使亚马逊探索自己配置主板、冷却系统等功能,这些都是未来可能利用到的功能之一。当2025年第三季度K2V6 400G NIC支持硬件虚拟化管理时,它们将能够像Meta、谷歌一样使用NVL72架构来进一步优化他们的大规模分布式计算集群,以便支持各种应用程序需求,同时也会进一步减少他们的大规模分布式集群所需的人力资源投入。

标签: 智能输送方案

猜你喜欢