英伟达B300AI推理的加速器华为芯片突破最新消息在自然界中展现下马威

近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达继续前进。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个循序渐进的过程,但实际上,这是极为高效的迭代。

全新GPU为大模型推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。这一定制化工艺做出了调整设计,以便专用于计算芯片,使得B300浮点运算比B200高50%,而热设计功耗分别达到1.4KW和1.2KW,比起GB200和B200来讲,他们各自热设计功耗分别为1.2KW和1KW。

此外,B300内存从8-Hi(8层堆叠)升级到12-Hi HBM3E,每个GPU容量增加至288GB,但引脚速度保持不变,所以每个GPU内存带宽仍然是8TB/s。不过三星并未收到黄仁勋带来的礼物,因为至少在未来9个月内,他们都不会获得GB200或GB300订单。

对于OpenAI O3对推理性能更高要求所需改进的GPU内存,其背后是一个关于下一场战事“推理”的故事。英伟达为了满足这一要求,不断优化其内部结构以提高性能。

随着H100升级至H200两种GPU处理长序列时,在Meta开源的大模型Llama3.1405B在FP8精度下的处理速度图表展现了显著提升。在不同批处理大小下,其输入设置为1000Token,而输出19000Token,用以模拟OpenAI o1与o3中思维链。此图展示了H100与H200两个改进:更多内存带宽,以及更快速度。在所有可比较批处理中交互效率通常提高43%;运行比H100更高批处理但成本降低了三倍;多方面影响增强了用户体验,并且最终产生经济效益。

然而,不仅英伟达能提供这样的创新能力。ASIC同样能够实现这一点,而且事实上AMD在此方面可能处于更有利的地位,其MI系列产品如MI325X拥有256GB、MI350X拥有288GB等产品,有着更高容量。而NVL72则使得72个GPU共享内存且延迟极低,使其成为实现许多关键功能性质变化的一个重要因素,如交互性使思维链延迟减少、分散KVCache以实现更长思维链、以及扩展批量大小以降低成本,最终提升模型性能,使NVLL72在推理中的性价比提高十倍以上尤其是在长推理链上。此外,KVCache占用大量内存对经济效益致命,但NVL72能够将推理长度扩展至10万以上token,并在高批量中进行。

不过,对于华为芯片突破最新消息,我们必须注意到它如何影响这个领域,同时也要考虑自然界中的其他因素如何塑造这些技术发展之路。这不仅涉及硬件改进,还包括软件更新、数据管理策略以及整个行业竞争格局等多方面内容。如果你想要了解更多关于华为芯片突破及其对AI加速器市场潜在影响,请关注我们的未来报道。

标签: 智能输送方案

猜你喜欢