本文由半导体产业纵横(ID:ICVIEWS)编译自semiengineering
更高效的硬件、更好的规划和更好地利用可用电力可以带来很大帮助。
在生成式人工智能出现之前,没有人预测到为人工智能系统提供动力需要多少能源。这些数字才刚刚开始成为焦点,如何维持这一切的紧迫性也随之而来。
预计到 2026 年,人工智能电力需求将激增 550%,从 2024 年的 8 TWh 增至 52 TWh,到 2030 年将再增长 1,150%,达到 652 TWh。与此同时,美国电网规划人员将美国负荷预测值翻了一番,从 2.6% 增至 4.7%,到 2028 年将增加近 38 千兆瓦,相当于在 5 年内在美国电网中再增加两个相当于纽约州的州。
与此同时,微软和谷歌报告称,其电力消耗已超过 100 多个国家的用电量,谷歌的最新报告显示,2019 年至 2023 年温室气体排放量将增加 50%,部分原因是数据中心。
这让整个科技行业陷入了令人担忧的境地。芯片行业在计算耗电量方面表现良好,这与效率提升相当。在人工智能出现之前,并没有像今天这样大力推动计算能力的提升,许多人表示他们措手不及。这或许就是为什么有如此多的研究在研究传统能源的替代品,甚至包括核电站,这些核电站目前正在规划、建设或重新投入使用。
Arm基础设施业务线产品解决方案副总裁 Dermot O'Driscoll 表示:“AI 模型将继续变得更大、更智能,从而推动对更多计算的需求,这会增加对电力的需求,形成良性循环。找到降低这些大型数据中心电力需求的方法对于实现社会突破和实现 AI 承诺至关重要。当今的数据中心已经消耗了大量电力。全球每年需要 460 太瓦时 (TWh) 的电力,相当于整个德国的用电量。”
O'Driscoll 表示,要充分利用 AI 的潜力,业界必须重新思考计算架构和设计。尽管许多最大的 AI 超大规模企业正在使用 Arm 内核来降低功耗,但这只是解决方案的一部分。AI 搜索需要为每个查询提供更可靠、更有针对性的信息,而 AI 模型本身也需要变得更加高效。
新思科技电源分析产品管理高级总监 William Ruby 表示:“AI 应用正在推动前所未有的电力需求。国际能源署在其 2024 年报告中指出,ChatGPT 请求消耗的电量是传统 Google 搜索的 10 倍。我们看到半导体 IC 也出现了这种情况。高性能计算应用的 SoC 功耗现在已达到数百瓦,在某些情况下甚至超过一千瓦。”
人工智能的推出和快速应用让科技界和电力公司都感到意外。几年前,大多数人还以为人工智能的发展速度和几十年前一样缓慢。
“你可以说,90 年代中后期的互联网是一项改变生活的重大技术——属于千载难逢的技术之一,”杰出发明家、Rambus研究员 Steven Woo 表示,“智能手机是另一个例子。但人工智能的发展速度更快,其潜力就像互联网一样——在某些方面甚至可能更大。随着如此多的人进行实验,以及用户群能够做需要更多电力的更复杂的事情,半导体行业被要求尝试提高能效。在很多方面,这些架构都变得更加节能。只是,与更先进的人工智能所需的计算量增长相比,仍然显得微不足道。这是无法跟上需求的事情之一。你正在提高能效,但这还不够,所以现在我们必须想办法获得更多的电力。模型越来越大。计算越来越复杂。硬件越来越复杂。因此,关键的事情是,随着模型越来越大、越来越精确,我们变得越来越复杂。但现在很多问题都归结于我们如何为所有这些东西供电,然后如何冷却它们。这些都是大问题。”
人工智能与可持续发展所有电力从何而来?编写训练算法的工程团队是否需要开始更加注重电力?
Ansys总监 Rich Goldman 表示:“可持续性是我们在半导体行业 20 年来一直在关注的问题。人们已经意识到我们需要低功耗设计,以及实现低功耗设计的软件。今天,这归结为工程伦理和道德问题。我们的客户在购买芯片或训练模型时会关心它吗?我认为他们不会根据这一点做出决定。”
同样发挥作用的还有工程师如何获得奖励、评估和考核。Goldman 指出:“对可持续性的承诺通常不包括在他们必须投入到产品中的内容中,因此他们没有动力,除非他们自己内部的道德观和公司对此的道德观。这是商业中古老的道德与金钱的较量,一般来说,我们知道谁会赢。这是一个大问题。也许我们应该在学校教授工程伦理,因为他们不会停止制造大型、强大的法学硕士学位和在这些大型数据中心进行培训。”
尽管如此,运行 AI 模型需要大量处理器。“因此,你需要将数据中心中的 CPU 拆掉,换上运行效率高出数百万倍的 GPU,以获得更高的计算能力,”他说道,“而当你这样做时,你也在提高能效。这似乎有悖常理,因为 GPU 消耗的电量非常大,但每个计算周期的耗电量要少得多。考虑到数据中心空间有限(因为不会增加更多空间),你会将低效的处理器拆掉,换上 GPU。对于英伟达来说,这有点自私,因为他们以这种方式销售更多的 GPU,但这是事实。所以即使在今天,当我们谈到 Hopper H100s、H200s 时——即使 Blackwell 即将推出,其性能要好 10 倍或 100 倍——人们仍在购买 Hopper,因为它比他们现有的产品效率高得多。与此同时,他们节省的电力开支比购买和更换的开支还要多。然后,当 Blackwell 上市时,他们会用 Blackwell 替换 Hopper,从金钱角度来说,这对他们来说已经足够了,这有助于解决电力问题。这就是我们必须解决它的方法。我们必须考虑所涉及的资金,并根据公司利润的多少来吸引人们减少电力消耗。”
应对人工智能能源/电力挑战满足当前和未来大规模部署人工智能带来的能源和电力需求,带来了三大挑战。“一是如何输送电力,”Woo 说。“新闻中有很多关于核电的讨论,或者提供核电级电力的新方法。二是如何处理热量。所有这些系统都不仅仅是试图变得更强大。它们是在狭小的空间内实现的。你要预测所有这些功率,你必须想办法冷却它们。三是共同设计的机会,让硬件和软件协同工作以获得其他效率。你要尝试找到更好地利用硬件通过软件提供的功能的方法。然后,在半导体方面,供电确实具有挑战性,而目前数据中心正在发生的最大变化之一就是转向更高电压的电源。”
至少,产品开发团队必须在开发过程的初始阶段考虑能源效率。
新思科技 的 Ruby 表示:“你不可能在流程的最后阶段真正解决能效问题,因为那时架构已经确定,许多设计决策也已经做出。从某种意义上说,能效是一项机会均等的挑战,开发流程中的每个阶段都可以为能效做出贡献,但早期阶段的影响可能比后期阶段更大。总的来说,每个看似微小的决定都可能对芯片的整体功耗产生深远影响。”
“左移”方法论,即在开发过程的早期阶段同时设计硬件和编写软件,可以对能源效率产生深远的影响。“这包括总体硬件架构、硬件与软件分区、软件和编译器优化、内存子系统架构、SoC 级电源管理技术(如动态电压和频率调整 (DVFS))的应用等决策,仅举几例,”他说。它还需要运行实际的应用程序工作负载才能了解影响。
这只是问题的一部分。可持续发展的思维方式也需要改变。“我们应该考虑这个问题,但我认为整个行业并没有这样做,”Expedera 首席科学家 Sharad Chole 表示,“目前我们只考虑成本。不幸的是,我们并不考虑可持续性。”
但随着生成式人工智能模型和算法变得更加稳定,成本将变得更加可预测。这包括需要多少数据中心资源,最终还包括需要多少电力。
“与之前的模型架构迭代不同,之前的架构在不断变化,每个人都有略微不同的调整,而业界认可的 Gen AI 模型已经稳定了相当长一段时间,”Chole 说。“Transformer 架构是一切的基础。在工作负载需要哪些支持方面也有创新,这非常有用。”
这也很好地理解了需要优化的内容,需要与重新训练模型的成本进行权衡。“如果要训练一个 40 亿或 50 亿个参数的模型,就需要 30,000 个 GPU 三个月,”Chole 说。“这是一笔巨大的成本。”
一旦这些公式建立起来,就可以确定运行生成式 AI 模型时需要多少功率。
“OpenAI 表示,它可以预测其模型 3.5 和模型 4 的性能,同时将扩展定律投射到模型相对于训练数据集的增长上,”他解释道。“这非常有用,因为这样公司就可以计划,他们将需要 10 倍以上的计算或 3 倍以上的数据集,才能实现下一代准确度的提升。这些定律仍在使用中,即使它们是为非常小的一组模型开发的,它们也可以很好地扩展模型洞察力。开发模型的闭源公司——例如 OpenAI、Anthropic 和其他正在开发非开放模型的公司——可以以我们不理解的方式进行优化。他们可以优化模型的训练和部署,因为他们对模型有更好的理解。而且,由于他们为此投入了数十亿美元,他们必须更好地了解如何扩展模型。‘在未来两年内,这就是我需要筹集的资金数额。’这是非常可预测的。这样用户就可以说,‘我们要设置这么多的计算量。我们需要建立这么多的数据中心,这就是我需要的电量。’计划得相当周到。”
搁浅电力管理大规模人工智能日益增长的电力需求的一个关键方面涉及数据中心的设计和利用。
“数据中心市场效率极低,这种低效率是由于建筑基础设施和运行应用程序的 EDA 两个市场空间分裂造成的,”Future Facilities 创始人 Hassan Moezzi 表示,该公司于 2022 年 7 月被 Cadence 收购。“人们谈论功耗以及它给市场带来的颠覆。像 英伟达 这样的 AI 设备可能比以前基于 CPU 的产品耗电量大得多,而且并不存在等效性,因为无论你向市场投入多少处理能力,市场都想要更多。无论你的芯片和技术有多好、多高效,这都不是功耗问题的真正来源。功耗问题来自于分歧。”
根据 Cato Digital 的数据,2021 年,为数据中心产生的电力为 105 千兆瓦,但其中超过 30% 从未使用过,Moezzi 说。“这被称为闲置容量。数据中心为您提供运行应用程序的电力。这就是您建造这些非常昂贵的建筑物并以高昂的成本运营它们的唯一原因。而房间里的大象就是闲置容量。但是,如果你和数据中心业务中的任何人交谈,特别是基础设施方面的任何人,并且你说“闲置容量”,他们都会点头,说他们知道这件事。他们不谈论它,因为他们认为这只是为了防范风险而进行的过度配置。事实是,其中一些是故意过度配置,这就是闲置容量。但他们确实过度配置,因为从物理角度来看他们不知道数据中心内部发生了什么。30% 以上的统计数据并不能反映企业市场的情况,企业市场指的是任何非超大规模企业,因为这些公司在工程导向方面效率更高,而且他们能处理好所有事情。但企业、CoLo、政府数据中心的效率要低得多。这意味着如果你购买了一兆瓦的容量——或者你认为你购买了一兆瓦——作为企业,你能获得其中的 60% 就算幸运了。换句话说,它超过了 30%。”
这很重要,因为很多人都在为数据中心和电网的过度开发对环境的影响而争论不休。“但我们说你可以减缓这个过程,”莫兹说。“你不能阻止数据中心的建设,但你可以通过利用现有的闲置容量来大幅减缓这一进程。”
结论生成式人工智能势不可挡,鉴于其快速传播和普及,试图减缓其发展是不现实的。但它可以比现在更有效率,这就是经济将推动行业发展的地方。不过,很明显,没有单一的解决方案可以实现这一点。这将是多种因素的结合,从更高效的处理到更好的人工智能模型,这些模型可以使用更少的功率获得足够准确的结果,并更有效地利用当今可用的功率。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。