当前位置：首页 > 智能输送方案 > 英伟达B300AI推理的加速器华为芯片突破最新消息在自然界中展现下马威

英伟达B300AI推理的加速器华为芯片突破最新消息在自然界中展现下马威

智能输送方案
2025-05-13 09:24
0

近日，黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题，英伟达的Blackwell GPU曾多次传出延迟发布的消息，但这并未阻止英伟达继续前进。在GB200和B200发布六个月后，英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个循序渐进的过程，但实际上，这是极为高效的迭代。

全新GPU为大模型推理和训练性能带来了巨大的提升，对于大模型公司和存储供应商来说，无疑是一份巨大的圣诞礼物。B300是台积电4NP工艺（英伟达定制工艺，属于5nm制程节点的一部分）节点上的一个全新流片。这一定制化工艺做出了调整设计，以便专用于计算芯片，使得B300浮点运算比B200高50%，而热设计功耗分别达到1.4KW和1.2KW，比起GB200和B200来讲，他们各自热设计功耗分别为1.2KW和1KW。

此外，B300内存从8-Hi（8层堆叠）升级到12-Hi HBM3E，每个GPU容量增加至288GB，但引脚速度保持不变，所以每个GPU内存带宽仍然是8TB/s。不过三星并未收到黄仁勋带来的礼物，因为至少在未来9个月内，他们都不会获得GB200或GB300订单。

对于OpenAI O3对推理性能更高要求所需改进的GPU内存，其背后是一个关于下一场战事“推理”的故事。英伟达为了满足这一要求，不断优化其内部结构以提高性能。

随着H100升级至H200两种GPU处理长序列时，在Meta开源的大模型Llama3.1405B在FP8精度下的处理速度图表展现了显著提升。在不同批处理大小下，其输入设置为1000Token，而输出19000Token，用以模拟OpenAI o1与o3中思维链。此图展示了H100与H200两个改进：更多内存带宽，以及更快速度。在所有可比较批处理中交互效率通常提高43%；运行比H100更高批处理但成本降低了三倍；多方面影响增强了用户体验，并且最终产生经济效益。

然而，不仅英伟达能提供这样的创新能力。ASIC同样能够实现这一点，而且事实上AMD在此方面可能处于更有利的地位，其MI系列产品如MI325X拥有256GB、MI350X拥有288GB等产品，有着更高容量。而NVL72则使得72个GPU共享内存且延迟极低，使其成为实现许多关键功能性质变化的一个重要因素，如交互性使思维链延迟减少、分散KVCache以实现更长思维链、以及扩展批量大小以降低成本，最终提升模型性能，使NVLL72在推理中的性价比提高十倍以上尤其是在长推理链上。此外，KVCache占用大量内存对经济效益致命，但NVL72能够将推理长度扩展至10万以上token，并在高批量中进行。

不过，对于华为芯片突破最新消息，我们必须注意到它如何影响这个领域，同时也要考虑自然界中的其他因素如何塑造这些技术发展之路。这不仅涉及硬件改进，还包括软件更新、数据管理策略以及整个行业竞争格局等多方面内容。如果你想要了解更多关于华为芯片突破及其对AI加速器市场潜在影响，请关注我们的未来报道。