拿什么来遏制失控的AI功耗?(转发学习)

全产业 2024-08-19 01:30:31

为什么英伟达CEO黄仁勋不断地强调自己家算力芯片的算力功耗比和TCO?为什么OpenAI的CEO奥特曼宣称需要融资几万亿美元,其中很大一部分预算是用来建电站?

实乃现在AI算力集群是十足的吞电狂魔。比如说英伟达NVL72一个机架的功耗就超过200KW。什么概念?一台家用空调额定功率大概1KW;一个NVL72机架大小相当于一台家用单开门冰箱。一个NVL72机架功率超过200KW,就相当于一台家用单开门冰箱里面塞下200台空调。

数据中心、人工智能(AI)和加密货币领域的电力消耗预计在2026年可能会较2023年翻倍,达到1000太瓦时(TWh),这大约相当于日本的电力消耗总量。

早在若干年前,网友就把英伟达的显卡芯片戏称为核弹,就是因为这个原因。随着GPU用于AI计算并持续迭代升级,AI算力芯片的功耗较几年前又是增大了数倍乃至十倍。现代单颗AI算力芯片拥有数百亿个晶体管,更好的计算性能是以成倍增长的功耗需求为代价的。因此用于人工智能 (AI) 和机器学习 (ML) 等应用的高性能处理器需要不断增加的功耗。这个趋势并没有出现放缓的迹象。

拿什么来遏制失控的AI功耗?

最首先站出来的是,以台积电为代表的晶圆制造厂商们。他们通过使用更为先进的制程,不单可以将单颗晶体管体积做小,还能使得晶体管们的工作电压降低。根据P=U*I(功率=电压*电流)知,先进制程是降功耗的一个重要手段。

虽然核心电压下降了,但先进处理器的晶体管的数量却并没有减少,反而指数级增加,所以处理器的电流并不是减少,而是巨幅增加的。比如,无论是英伟达的H100 还是AMD的MI300亦或英特尔的高迪3,2000A (安培)的峰值电流是稀松平常的事。大部分人对安培这个电流单位没有概念。我记得我在上初中时最开始接触电学的时候,我们物理老师就告诉我们,安培是一个很大的单位。家庭照明的主LED灯的电流大概50mA=0.05A。

除了电流大之外,人工智能工作负载还有典型的高动态特性。所谓的高动态特性,就是平时不运算的时候待机,一旦要工作的时候能迅速进入状态。即电源要对芯片施加持续数微秒的高 di/dt 瞬态(di/dt就是电流爬坡速度)。也就是在微秒的时间内,电流从0一下子陡升到2000A。这些瞬变会对 PDN (Power Distribution NetWork 电源分配网络)上产生冲击。

为了抑制这种不断上升的能源消耗及能源冲击,人工智能处理器的供电网络经历了多代的演变。这些演变升级涉及电路架构、电源转换拓扑、材料科学、封装和机械/热工程方面的创新。

其中电源架构创新主要有三个手段:

负载点(POL,Point-Of-Load )分比式电源架构(FPD,Factorized Power Delivery)垂直供电

负载点(POL,Point-Of-Load )

因为元件多且杂的缘故,工程师们不太可能直接从一次电源那里直接选择高隔离的DC-DC模块进行转换,一方面是设计电路和结构的麻烦,另一方面也是成本的考虑。这个时候,POL就大放溢彩了,工程师会先选用一个大功率高隔离稳压的二次电源做为一个总线电压(中间电源电压),当然这个二次电源一般是PCB上面最主要的一个功率元件所需要的,或是要求负载较大最通用的那个电源电压,然后工程师再根据各个功能器件的要求不同,选用各式各样的POL进行三级转换,给后端的功率元件供电,因为二次电源选用了稳压隔离的,所以很多时候就不要求POL再需要隔离稳压了。这样的两级转换本身在电源设计的角度来看,本身就是一种常有的理念,因为这样可以保证转换效率及其稳定性,另一方面设计结构也清晰简单,而且设计成本也要低很多。CPU、FPGA、网络交换处理器以及现在的 AI 训练和推理芯片中最重要的供电架构就是负载点 (PoL) 方法。比传统的多相电压平均法,分比式PoL电流倍增方法实现了更高的功率和电流密度。这种电源架构利用了理想化变压器“匝数比”的概念,其中分压产生电流倍增。电流倍增的可扩展特性使得在不同输出电压水平和输出电流水平下开发全面的PoL转换器系列成为可能。这对客户来说至关重要,因为高级 AI 训练处理器的要求正在迅速变化。分比式电源架构 (FPA) – 分立调节和变压功能

总结以下AGI(生成式AI)电源系统设计的主要挑战:

非常高的电流传输能力,从 500 到 2000 安培不等需要高动态性能的负载PDN损耗和阻抗大标准化使用 48V 总线基础设施,需要 48V 至 sub-1V 能力

解决高电流和高密度负载点 (PoL) 问题需要使用不同的方法。先进的分比式电源架构(FPA)分解并调节电压转换、电流倍增功能,使这些供电级能够得到最佳放置,并实现尽可能高的效率和功率/电流密度。

稳压器会在某个电压输入输出值时获取最佳效率,并且随着稳压器输入输出比的变化而失去效率。典型输入电压在 36V 和 60V 之间变化时(为什么典型输入在36-60V之间?因为60V是人体安全电压),最佳输出总线电压为 48V,而不是典型的12V。根据P=VI,48V 输出总线电流仅为 12V时的1/4。PDN 损耗功率等于损耗等效电阻乘以电流的平方(P=I*I*R),因而输出48V时的损耗仅为12V的1/16。因此,首先放置稳压器并调节至48V输出将实现最高效率。当低于48V的输入时,稳压器也必须接受,因此需要一个降压-升压调节级来满足。一旦输入电压被调节成48V,下一步就是将48转换为1V。

在负载要求为1V的情况下,最佳变换比为48:1。在这种情况下,稳压器首先将输入降压或升压至48V输出,再利用变压器将电压从48V降至1V。鉴于变压器输入输出端功率不变,则变压器实为电流倍增器,实现电流的48倍倍增。为了将大电流输出的 PDN 损耗降至最低,损耗电阻必须要进来小。如果损耗电阻要尽量小,那么变压器要尽可能靠近最终负载。

通过稳压器和变压器(电流倍增器)的组合,就构成了分比式电源架构。这两款器件相互配合,各自有效地发挥其专用作用,实现完整的DC-DC转换功能。

稳压器提供稳定的输出电压,该电压给变压器(电流倍增器)供电,电流倍增器将分比式总线电压转换为负载所需的电平。

垂直PoL转换器布局可降低功耗

在前几代大电流生成式AI处理器电源架构中,PoL 转换器在物理上放置在处理器的水平横向(相邻)位置。由于铜布线的损耗电阻和 PCB 内走线长度正相关,横向放置的 PoL 的供电网络 (PDN)PCB走线长, 因而阻抗也大,大致为 200μΩ 或更高。随着生成式AI处理器的工作电流增长到1000 安培时,PCB 电源走线本身损耗就能高达200 瓦功率。如果这是一个AI并行集群,那这个损耗就可能是200瓦的若干倍。特别考虑AI模型训练需要24小时全天候运行数月至数年,这种损耗就更恐怖了。

正是意识到这种能源损耗,人工智能电源设计人员必须考虑供电PCB走线尽量短。因而建议垂直供电(VPD)结构,即将PoL转换器安放至AI处理器下方位置。通过VPD PDN, 损耗阻抗可以降至10μΩ 或更低(水平放置的损耗阻抗为200μΩ),在1000 安培下损耗功率为10 瓦。PCB损耗从200W降低至10W。

VPD(垂直供电架构)的另一个优点是减少了 GPU 芯片表面电压梯度,这也节省了功耗。典型的3nm CMOS工艺 的GPU工作电压为0.65V。如果采用横向供电,从电源施加处到处理器的四个侧边距离远近不同,可能需要 0.70V 的电压来确保 GPU 芯片中心的标称电压为 0.65V。而通过垂直供电,可以保证整个芯片电压都为0.65V。0.70 – 0.65 = 50mV 的差异乘以 1000 安培,可额外产生 50 瓦 的节电效果。这样总功耗节省为190 W的PCB损耗+ 50 瓦= 240 瓦(如下图)。

使用 VPD 实现处理器芯片表面的均匀电压,最大限度地提高计算性能,同时最大限度地降低功耗。

当前电费单价约为每兆瓦时 75 美元;对应每个运行人工智能处理器采用垂直供电方式节省 240W。2026年全球2000万颗人工智能处理器,一年相当节省32亿美元的电力运营成本,减少数百万吨二氧化碳排放。

0 阅读:9

全产业

简介:感谢大家的关注