回顾2023年,人工智能(AI)产业发展实现了质的飞跃。人们可用自然语言与机器进行便捷交互,并将海量的数据经过训练、推理,快速转化为生产力,产生实际商业价值。
然而,AI的快速发展带来了前所未有的算力需求。数据中心作为算力基础设施,同样面临着全新挑战。如何打造更加高效、更具韧性、更高适用性与更可持续的智算基础设施,是当前数据中心行业面临的一个重要课题。
在此背景下,元宇宙新声有机会采访到施耐德电气全球数据中心科研中心总监、爱迪生专家林密,一同探讨AI驱动算力需求与数据中心变革以及施耐德电气的价值赋能。
施耐德电气全球数据中心科研中心总监林密
为什么是施耐德电气?
总部位于法国吕埃的施耐德电气成立于1836年,经历了近200年的发展,他们已经成为全球领先的电气制造商之一。当下,在科技飞速发展,施耐德电气一直积极拥抱变化,主动创新,不断融入本地生态圈,释放跨国公司新活力,他们凭借在可持续能源管理、工业自动化以及软件与服务等方面的专业知识,持续不断地实现技术创新,赋能客户加快在数字时代的步伐。
另外,施耐德电气在数字化转型和智能化升级方面也在不断创新和进步,不仅为企业带来了巨大的商业机遇和发展空间,同时也为社会和环境带来了更多的价值和意义。
总之,采访施耐德电气将有助于更直接地了解其发展前景和目标,同时,展现他们多年来在数字化方面发展的经验和能力,可以为企业提供更有参考意义的信息和启示。
算力成为人工智能命脉
日前,埃森哲对全球高管调研数据显示,高达87%的受访中国企业高管预计在2024年将增加技术支出,71%的高管计划在数据/AI领域增加投入。展望2024年,受访企业高管们最为关心的话题中,“适应AI和自动化等创新技术带来的变化”以68%的占比居首。
这意味着AI将加速向各行各业渗透,也将导致算力资源需求的增加。
值得注意的是,AI算力需求分为训练和推理,它们有着不同的特点和需求。训练是基于大量结构化数据来训练一个模型,需要依赖高性能的智能芯片,以实现训练时间和成本优化,但对时延和弹性要求相对较低。
推理则是用训练好的模型处理新的数据,比如语音识别、图像分析、智能工厂、无人驾驶等,相比训练的需求,推理的算力密度较小,但由于直接面向应用场景,对时延和弹性的要求较高。
林密表示:“由于AI训练负载和推理负载有着不同特性,因此对智算中心也有不同的需求。训练主要是在大型、超大型的集中式数据中心进行,推理则需要部署在贴近用户侧的数据中心和边缘数据中心。”
我们可以认为,AI大模型训练的效率或创新的速度,根本上取决于算力能力的大小。
以GPT-3为例,在训练阶段,单次GPT-3 Small(1.25亿)计算量 2.6PFlops/天;单次GPT-3XL计算量为 27.5 PFlops /天;单次GPT-3(1750亿)计算量 3640 PFlops/天;在推理阶段,日常运营算力约为4874.4 PFlops /天。
超大模型训练、推理不仅需要消耗密集和昂贵的算力等资源,对算法本身也提出了极高的要求。在海量数据上训练百亿、千亿、万亿的参数,对模型训练速度、模型精度以及训练资源成本都是极大的挑战。
元宇宙新声认为,随着投身AI大模型的公司如雨后春笋般涌现,再加上围绕大模型的AI生态和由此产生的用于推理的算力需求,未来的算力缺口将更加惊人。算力的充足与否将决定各公司大模型产品的成败,但算力的增长并不是简单的硬件叠加。
算力提升并不简单
近年来,我国的“东数西算”、“算力基础设施高质量发展行动计划”等重点工程带来了大量爆发性、强劲的需求和机遇,但与此同时,AI为代表的新技术又促使数据中心新旧动能转换加速,在这个过程中企业面临诸多挑战。
首先,企业需要在提升计算与存储能力的同时,建设可持续发展的数据中心;其次,在数字化基础设施方面,企业需要更好地利用从设计、建造到运营维护全生命周期的数字化软件,提升部署的速度、可用性和可持续性;最后,企业还需实现由传统基础设施建设向智能、数字化基础设施的转变。
为了更好地实现大规模的高性能计算,数据中心需要解决由AI工作负载、GPU的热设计功耗(TDP)、网络延迟、AI集群规模带来的一系列问题。因此,拥有更智能与数字化的物理基础设施,将成为AI浪潮席卷下数据中心升级的重要发力点。
具体而言,数据中心基础设施演变涉及供配电、制冷、机柜等多个方面。依托前沿的行业洞察和丰富实践经验,施耐德电气基于创新技术与解决方案,融合数字化服务与创新型服务,为数据中心的重塑提供四个可靠思路。
第一,优化供配电系统:AI模型训练所需的大规模机柜阵列,组成了“人工智能集群”,从而增加了供电压力;而推理所需工作负载通常为业务关键型负载,需要具备更高韧性。
从配电的角度来看,林密指出:“由于AI服务器需要部署高密度智能芯片,其功耗和散热需求远超普通服务器。传统机柜的功率密度一般只有5千瓦到8千瓦,而AI机柜功率密度可以达到30千瓦到100千瓦,且在使用期间往往是100%满负载运行。”由此可见,智算中心对供配电的规格、可靠性和安全性要求愈发严苛。
第二,改变传统制冷方式:尽管风冷一直是IT行业的主流选择,但受制于芯片热设计功耗的持续提升,数据中心行业将逐渐实现由风冷向液冷进行转变。
针对制冷方式的转变,林密认为:“风冷已经很难满足AI机柜的制冷需求,而液冷在助力提升芯片性能与可靠性的同时,将提供更高的制冷效率,降低智能系统运行的整体能耗。但是当前液冷技术也面临产业标准化、漏液风险、流量控制、温度控制、运维复杂度等方面的难题。”
聚焦液冷应用挑战,林密建议,如果机柜功率密度超过20千瓦,应考虑采用液冷方案,对于冷板式液冷,应尽量采用标准化的manifold、CDU、快接等来提高兼容性和可靠性。此外,企业也可以积极引入LPS负压系统等创新技术,以有效降低漏液风险。
第三,机柜升级:液冷应用、高密度的硬件配置,均会导致AI服务器的深度和重量持续增加,因此机柜的尺寸、承载能力均需要针对性变化,以适配优化后的机群。
林密表示,AI机柜设计的宽度至少达到 750 毫米,深度至少达到 1200 毫米,高度保持在 48U 以上,静载承重能力则在 1800 公斤以上,才可以承载、容纳智算服务器和液冷系统。
第四,应用软件工具:在管理AI集群时,应用软件工具可降低复杂电气网络出现意外故障的风险,并为布局的决策提供依据。企业需要通过软件工具,对IT空间(包括机柜中的设备和虚拟机)创建数字孪生,实现数据中心可视化,尽可能增大动态环境中的容错裕量,降低运营风险。
元宇宙新声认为,我国的一系列政策与举措,都在推动着数据中心产业的变革。面对“万物皆可AI”的智算浪潮,各大厂商正在加速推进从产品、技术到服务的创新,快速应对产业变革,构建面向未来的数据中心。
双碳政策下,数据中心何去何从
据施耐德电气估算,到2028年AI智算中心电力消耗将占数据中心总电力消耗的15%—20%。AI需要愈加澎湃的算力助其不断演进,自然也为数据中心的设计和运营带来颠覆性的变革。
以训练GPT-3大语言模型为例,其耗电量高达1287兆瓦时,产生约合552吨二氧化碳,相当于123辆汽油车行驶一年的碳排放量。不难看出,AI技术发展虽然为数据中心行业带来更多增长机遇,但耗电量的大幅增长无疑会导致碳排放量增加,并加剧气候变化挑战。
此前,在《贯彻落实碳达峰碳中和目标要求推动数据中心和5G等新型基础设施绿色高质量发展实施方案》中提出新建大型、超大型数据中心PUE值降到1.3以下,国家枢纽节点降到1.25以下。
林密表示:“随着算力需求的增长和越来越多面向AI的数据中心建设,算力基础设施的能耗和碳排放也在不断增加。“作为数据中心、行业关键应用领域基础设施建设和数字化服务的全球领导者,施耐德电气依托前瞻创新技术与丰富实践经验,从思想领导力、硬件产品到软件服务,持续深化创新,全方位赋能行业客户。
截至目前,施耐德电气已经发布230余篇行业白皮书,阐述行业前沿理念、创新技术与最佳实践的同时,也为相关领域国家标准和行业标准的制定提供中立与有益的参考。近期推出的两篇白皮书正是以创新发展理念助力客户应对当下挑战,其中第67号白皮书针对处于可持续发展历程各阶段的数据中心运营商,首次提出用于衡量数据中心环境可持续性的指标框架;第110号白皮书则聚焦于AI所带来的颠覆,针对数据中心的每个物理基础设施类别提供了应对指南。
在硬件方面,施耐德电气为数据中心提供绿色高效的数字化产品,包括供配电设备、液冷系统等,并根据AI负载的特点和挑战,为客户提供策略和建议,从机柜、供配电、制冷等方面帮助客户打造可持续发展的智算中心基础设施。
值得一提的是,施耐德电气在强调产品的低碳化、绿色化、数字化和高效化的同时,不断融入更多AI与数字孪生等数字化技术,在数据中心从设计、建设到运维的全生命周期内均可提供丰富的数字化解决方案,确保数据中心的安全可靠与持续运营。
例如施耐德电气中国研发团队推出的SmartCool解决方案,融合AI的机器学习(ML)技术,可以让空调末端基于IT负载实时需求进行动态制冷输出,从而进一步提升数据中心制冷能效,实现节能降耗,减少对环境的影响。
“根据Guidehouse Insights的最新排名,施耐德电气目前已经成为全球最大的绿电(PPA)解决方案提供商之一。”林密表示。
从整体趋势来看,企业在建设数据中心的同时,也要兼顾算力所带来的能耗与国家“双碳”目标的平衡。未来数据中心的发展须考虑不同地区能源结构的差异、同一地区不同行业的业务差异,提供更绿色的算力,并满足实时应用的需求。
元宇宙新声认为,任何一项新兴技术、新理念的推进发展,从来都不仅仅是单一行业、单一企业的使命,而是需要集合整个社会,所有行业的共同努力,尤其是在关乎全人类的环境问题上。而施耐德电气作为科技行业中的一份子,在节能环保方面持续输出价值,相信在未来他们能给大家带来更多惊喜。
采访小记
其实,我们这次对于林密的采访是有些仓促的,但如果从与他交流的角度来看,这又是一次高质量的采访,因为林密与我们印象中的技术型管理者一样,整个采访过程中他都一丝不苟地回答着问题、输出着观点。比如他认为数据中心建设还面临着很多挑战,还理性看待了AI技术发展对于算力的需求等,让我们在这次采访中受益匪浅。
不过,在采访过程中,我们还是抓住了一次林密情绪的波动,那就是在谈到技术创新时,我们从他眼里能看到闪烁的光芒,林密坚定地认为:“AI是时代前进的强大驱动力之一。”这也足以说明他对于新技术应用的向往。从这次对林密的采访中,我们深刻地认识到他对行业的认知、对技术的推崇以及对施耐德电气未来稳健发展的信心。