3nm芯片量产等待AI大模型泡澡热潮将至

当AI写作、创作艺术、甚至撰写诗歌都能媲美或超越普通人水平时,有人兴奋不已,也有人忧心忡忡。

对生成式AI可能带来的变化态度各异,但推动这一技术发展的研究人员和企业共同关注的问题是大模型所需的大算力需求带来的能耗问题如何解决?

以全球火爆的OpenAI公司ChatGPT为例,两年前,微软为了满足OpenAI的GPT-3模型训练算力的需求,推出了超级计算机拥有28.5万个CPU核心、1万个GPU。

巨量CPU和GPU带来了高昂的芯片采购和运营成本。

国盛证券报告估算,GPT-3训练一次的成本约为140 万美元。要用ChatGPT服务用户,以2023年1月独立访客平均数1300万计算,每日电费在5万美元左右。

数据中心能耗问题成为了云计算提供商面前的挑战。为了解决这一问题,无论是微软Azure还是阿里云,都早已让数据中心服务器“泡澡”,提升IDC能源效率。

“我认为ChatGPT会加速液冷发展。”英特尔市场营销集团副总裁兼中国区销售总经理庄秉翰表示,“目前液冷几乎已经成为一个潮流。”

服务器“泡澡”是一种比喻,实际上代表的是服务器散热液冷技术中的浸没方式,液冷技术包含了冷板、喷淋、浸没式,并非特别新的技术,但业界使用率并不高。

主要原因是国内许多冷板液冷设计缺乏规范验证标准,使得每个厂家设计都有差异,这使系统设计成本验证成本比较高,因此对于最终用户而言这个方案就比较贵。”英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立认为。

应用也是影响液冷技术没有大规模部署的原因:

“包括ChatGPT在内的应用带来的算力快速发展,是促使大多数客户快速从风冷转向更节能的液cold 技术重要原因。”新华三集团计算存储产品线副总裁刘宏程认为,“这不仅是可以节省多少的问题,还有空间浪费的问题。”

更进一步,大型数据中心规模也是影响液cold 技术大规模应用关键:

“这些都是我们探索绿色低碳方向的一部分:第一部分处理器产品;第二部分服务器整体设计;第三部分软件与工具。”陈葆立指出。

要从处理器层级解决liquid cooling 的挑战,主要是技术挑战,对于强调创新的英特尔难度可控。今年一月发布的英特尔至强可扩展处理器,在深层环节已经使用了90%可再生电力。

服务器层面的挑战则有技术和成本方面:

通过限流板进行设计,可以降低整个部件级别的能耗。相比之下,costs 的挑战更加巨大。使用liquid cooling 可能会增加10-20% cost 增加。

因此,要推动cost 降低关键就是standard化。而且由于量相关,所以随着产量提升将会带来cost 的下降。

此外,与国内领先伙伴联合研发,将相关经验与design 规格分享给业界伙伴,加速liquid cooling 解决方案落地。此外,由英特尔带动把所有标准建立之后产业链供应商将用统一标准实现互连互操作,从而极大降低采购及未来运维 cost,让整体 liquid cooling 技术在数据中心更容易落地。

猜你喜欢