英伟达B300AI推理的加速器中国芯片产业现状下的下马威

近日,黄仁勋让海外科技圈提前享受了圣诞节的喜悦。由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的消息,但这并未阻止英伟达继续前进。在GB200和B200发布六个月后,英伟达宣布将推出全新的GPU GB300和B300。外界可能以为这是一个循序渐进的过程,但实际上,这是极为高效的迭代。

全新GPU为大模型推理和训练性能带来了巨大的提升,对于大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。这一定制化工艺做出了调整设计,以便专用于计算芯片,使得B300浮点运算比B200高50%,而其热设计功耗分别达到1.4KW和1.2KW,比GB200和B200低。

此外,B300内存从8-Hi升级到12-Hi HBM3E,每个GPU的HBM容量增加到了288GB,但引脚速度保持不变,所以每个GPU的内存带宽仍然是8TB/s。不过,在未来九个月内,大型制造商如三星尚未收到任何关于GB200或GB300订单的大幅度增长。

在这个自然景观中,我们看到AI技术正迅速发展,如同春天来临前的种子萌芽一样。然而,与之相关的一个关键因素——芯片产业现状——却面临着挑战,就像夏季干旱之后秋季丰收所需雨水一样不可或缺。

随着OpenAI O3对推理性能更高要求的情形演绎,我们看到了英伟达如何改进GPU内存,以满足这一需求。这背后,是为了实现KVCache技术优化模型推理能力,从而提高处理速度。这是一个深刻的人类智慧与机器智能交织在一起的情境,就像冬眠动物醒来后的第一缕阳光照耀一般充满希望。

对于Meta开源大模型Llama3.1405B进行长序列处理时,由H100和H200两种不同类型的GPU进行比较,我们可以看到使用H100相较于使用H200在FP8精度下处理速度有显著提升。而且,在所有可比较批处理大小下,交互效率通常提高43%,运行更高批处理但成本降低了三倍。此举不仅增强了用户体验,也促使更多人参与竞赛,并因此赚取更多利润,从而形成了一种良性循环,就像自然界中的生态平衡一样健康稳固。

尽管如此,不断变化的地缘政治局势也影响着全球供应链结构,如同风暴对植物生长造成压力的逆风一般。但即便如此,一些企业依然能够利用这些变动获得优势,比如AMD,它可能正在更有利的地位上展开它在这方面的事业,而MI300X系列产品提供了192GB、256GB以及288GB等不同的内存容量选项,为各种应用提供支持就像是森林里的不同树木各自适应环境一样多样化繁荣。

最后,我想提到的还有NVL72平台,它以其独特性质成为一种革命性的创新:它使得72个GPU能够协同工作并共享内存,同时延迟极低;它允许思维链延伸至10万Token以上,并且能以较小成本操作大量数据,这一切都是通过改善交互性、分散KVCache以实现更长思维链,以及批量大小扩展来完成。而这样的“加速器”效果则是在整个行业中寻找难得的一抹亮色,让那些追求先机者欢呼雀跃,就像是春天里花朵绽放时人们的心情一般美好无限。

标签: 智能输送方案

猜你喜欢