随着全国一体化算力网络国家枢纽节点的部署和“东数西算”工程的推进,我国算力基础设施建设和应用保持快速发展。如何充分发挥智算中心的技术优势,构筑数字经济算网新底座,助力产业数字化发展,是产业链最为关注的话题之一。
AI,先智算
国家信息中心发布的《智能计算中心创新发展指南》指出,“十四五”期间,在智算中心实现80%应用水平的情况下,城市对智算中心的投资可带动人工智能核心产业增长2.9倍至3.4倍,带动相关产业增长36倍至42倍。
近两年,AI大模型给产业带来了巨大的影响,以GPU为核心的智算逐步成为算力的主要发展方向。据工信部规划,中国智能算力的占比将在2025年达到35%,年复合增长率在30%以上,这意味着智算中心将引领数据中心建设的潮流。此外,在技术趋势上,由于AI算力单位能源消耗高,其机柜比传统的机柜有数倍的耗能需求,智算中心可以通过发展节能技术、算力调度等方式降低能耗,满足低碳发展要求。
智算中心是指基于智能化技术和算法的数据中心,它不仅具备通用数据中心的计算、存储和网络等基础功能,更加注重数据的智能化处理和应用,以实现更高效、更智能的数据管理和应用服务。“由于最终业务需求差异,即AI算力对比通用算力对网络架构的诉求不同,使得智算中心和通用数据中心的网络特征出现了较大差异。”天津移动规划技术部算网能力室经理李强在接受《通信产业报》全媒体记者采访时表示。
青云科技副总裁廖洋表示,智算中心包括了专为AI设计和优化的基础设施,能够提供强大的计算资源,满足机器学习、深度学习等复杂模型训练与推理的需求,支持了一些传统数据中心不擅长或者是无法提供服务的场景,成为支持经济数智化、社会数智化必不可少的基础设施。
“智算中心旨在支撑数据开放共享、智能生态建设、产业创新聚集,促进AI产业化、产业AI化,及政府治理智能化。”鹏博士集团副总工程师、鹏博士研究院负责人侯兴泽告诉《通信产业报》全媒体记者,智算中心由于需要处理大量的数据和运行复杂的AI模型,对能源和制冷的需求更高,液冷技术在智算中心中的应用更为普遍,以支持高功率密度的设备并有效管理散热问题。
此外,智算中心往往需要部署大量的高性能计算设备,如GPU、TPU和FPGA等,这些设备通常具有较高的功耗。因此,智算中心的单机柜功率密度通常会高于传统数据中心。根据调研,智算中心的单机柜功率密度需要超过30kW,甚至达到100kW以上,而传统数据中心的单机柜功率密度一般在6kW~15kW之间。
随着AI产业和产业AI的不断发展,智算基础设施建设热度持续升高。与传统的数据中心相比,智算中心在当地发展产业经济可能会带来更明显的作用,如何建好、管好、用好智算中心是一个持续迭代更新的命题。
进度如何?
智能算力需求的快速增长让智算中心的建设也进入了高速发展时期。目前,各地也开始逐步出台关于整体建设的指引以及相关指标,这主要还是为了引导智算中心向着“重质量”“绿色”的方向健康发展。
相关数据统计,截至2023年底,全国带有“智算中心”的项目有129个,其中83个项目有规模披露,规模总和超过7.7万P,在建规模4.9万P。这些智算中心标准不一、规模各样,算力规模一般在50P、100P、500P、1000P,有的甚至达到12,000P以上。
截至2023年8月,我国智算中心集中于东部地区和中部地区。其中,东部地区智算中心数量达25个,占比62.5%,排名第一,以京津冀和长三角地区为主;中部地区占比17.5%,排名第二;西部和东北地区的智算中心数量占比分别为12.5%和7.5%。
在侯兴泽看来,智算中心是个复杂的系统工程,从各方面来看都处在积极演进过程中,随着主流厂商系统架构的快速演进迭代升级,不同建设时期的算力中心有很大不同,第一代、第二代智算中心普遍进入运营期,第三代智算中心基本在建设阶段,更新的智算中心还处于设计预研过程中。
已经投产运营的第一代算力中心单机电源功率在6.5kw左右,单机可提供5P算力,普遍采用风冷散热模式。到第二代算力中心单机电源功率提升至10.5kw,单机可以提供15P算力,开始出现气液混合制冷散热模式。到第三段算力中心单机电源功率可达24kw,单机可提供225P算力,普遍采用板式液冷散热模式。可以预见,未来采用浸没液冷的算力中心单机柜功率密度达到60kw~240kw,单机算力超过1440P指日可待。
总体来看,当前,智算中心的建设仍处于初期阶段,要从开放、融合、绿色、普惠、服务等方面进行智算基础设施的建设,提高智算中心的运营效益。
谁在领跑?
从智算中心的建设与运营角度来看,一个智算中心需要多种技术和产业链企业的支撑,以确保其顺利运行并满足各种复杂的计算需求。至少需要物理基础设施(电力等)、硬件基础设施(服务器、存储、网络等)、软件平台与工具(调度管理、运营运维、应用框架、大数据工具等)、算法和模型服务企业。
目前,我国智算产业链已经初步形成,涵盖由芯片、软件、硬件供应商构成的上游产业,由云商、电信运营商、第三方数据中心服务商等构成的中游产业,以及由互联网、交通、金融、工业等行业的用户构成的下游产业。
其中,国产硬件厂商持续突破AI芯片性能,提升市场竞争力。华为推出昇腾910,性能对标英伟达A100,可用于智能手机、云计算、自动驾驶等领域,同时推出AI开源计算框架 MindSpore,支持用户进行AI开发。
大型云商自研AI芯片,以摆脱对国外技术依赖。阿里巴巴面向自身电商、汽车、家电等领域需求自研AI芯片,基于RISC-V架构和自研算法推出含光800 NPU,支持TFlops级别浮点运算。百度面向搜索、智能交通等领域的深度学习运算需求,推出昆仑系列AI芯片,用于大模型推理。腾讯依靠蓬莱实验室推出AI推理芯片“紫霄”,已用于腾讯会议等多个内部业务。
作为算力网络建设、运营的国家队和主力军,三大运营商2024年资本开支焦点正在转移,预算皆有下降,但算力成为运营商投资新热点,将大幅度增加智能算力方面的投资。2024年,中国电信云/算力投资计划180亿元,智算算力累计超过21EFLOPS,全面打造面向智算灵活、弹性、绿色的AIDC。中国移动算力开支计划为475亿元,较2023年上涨21.5%,占资本开支预算总额的27.5%。在算力方面,中国移动计划加快算力多元供给,计划通用算力累计达到9EFLOPS,智算算力累计超过17EFLOPS,确保规模行业领先。中国联通在算网数智投资方面将坚持适度超前、加快布局。
未来,国产多元异构算力融合推动智算长效发展,智算从单节点向区域化协同、边端部署演变,普惠泛在的智算服务生态正逐步构建,确定性、高性能网络助推大规模智算集群构建,低碳化发展格局需创新智算-电网协同模式。要打破传统IDC产业的思维,建设符合市场真正需求、支持良性商业发展的重运营、重服务的智算中心,还是需要整个产业链的生态合作。