英伟达B300AI推理的加速器自然界中的集成IC芯片下马威

近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达持续推进其技术发展。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能看起来像是一个循序渐进的过程,但实际上,这是一种非常高效的迭代。全新GPU为大模型的推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。通过定制化工艺设计,使得B300浮点运算比B200高50%,GB300和B300的热设计功耗分别达到1.4KW和1.2KW,与之相比,GB200和B200热设计功耗分别为1.2KW和1KW。

此外,B300内存从8-Hi升级到12-Hi HBM3E,每个GPU HBM容量增加到288GB,而引脚速度保持不变,因此每个GPU内存带宽仍然是8TB/s。不过,由于三星尚未收到黄仁勋带来的礼物,他们至少在未来9个月内不会获得GB200或GB300订单。

更重要的是,这些改进背后,是为了满足OpenAI O3对推理性能更高要求。这涉及到了KVCache技术对模型推理能力进行优化,即通过缓存注意力机制中的键(Key)与值(Value),减少冗余计算,从而提高模型推理速度。关键就在于缓存之前数据,只对新输入Token进行计算,所以对缓存性能提出了更高要求。

对于NVL72,它使得72个GPU能够处理同一问题,并共享内memory,以实现低延迟。此世界上没有其他加速器拥有全互联交换连接以及能够通过交换机进行全约简操作。NVL72为实现许多关键功能带来了性价比显著提升:

更高交互性使思维链延迟更低。

72个GPU分散KVCache,以实现更长思维链(增强智能)。

与典型8个GPU服务器相比,更好的批量大小扩展,使成本更低。

在处理同一问题时,可以搜索更多样本,以提高准确性,最终提升模型性能。

因此,在长推理链上,NVL72提供了10倍以上的预期价值,加剧了经济效益危机。但NVLL7却能将推理长度扩展至十万以上token,并在高批量中运行。

英伟达“转身”,给供应链“震动”

在这一系列改动中,一项重大变化是VRM由超大规模厂商或者OEM直接从VRM供应商处采购,而不是单独提供SXM Puck模块上的VRM。这意味着客户现在需要自行采购计算板剩余组件,而外部存储器将采用LPCAMM模块,而非焊接LPDDR5X,如美光或成为这些模块主要供应商。

向SXM Puck转变,为更多OEM/ODM参与供应计算托盘提供机会。在这次调整中,纬创资通失去了生产BIanca板份额最大输家地位;相反工业富联虽然失去BIanca板份额但作为SXM Puck模块唯一制造商,他们所获收益完全抵消掉BIanca板损失。而目前还没有实际下单寻找其他SXM Puck模块供货者,也许还有其他可能出现的情况发生,有待观察监测其是否会有改变方向再次调整策略以适应市场需求变化或任何新的挑战等情况来决定是否继续使用现有的策略还是要重新考虑该如何管理资源以获取最佳效果,同时也要根据产品更新周期计划及时更新产品线以保持竞争力,不断创新以应对不断变化的情景及挑战。

总之,这一切都表明了一个事实:即便是在这样快速发展、充满不确定性的环境中,大型科技公司仍需紧密合作才能取得成功。而随着时间的流逝,我们可以期待看到更多这样的协作关系产生,因为这是当前这个行业最重要的事业之一——促进人工智能研究与应用,以及利用它来解决全球面临的大问题,比如气候变化、健康状况恶化等等。如果我们想要继续支持这种趋势,那么我们必须支持那些致力于开发人工智能工具的人们,同时鼓励他们采取可持续做法,并确保它们被用于正当目的而不是滥用。我相信,如果我们一起努力,我们就能创造一个更加智慧、更加公平且更加安全的地球社区。

标签: 智能输送方案

猜你喜欢