从2023年的ChatGPT,到2024年的Sora,AI和大模型正以不可思议的发展速度颠覆着业界的认知,但大模型的火热登场,也进一步引爆了智能算力的需求。传统算力时代,算力需求每18-20个月翻一倍,在深度学习出现之后,算力需求每6个月翻一倍,而到了大模型时代,对智能算力的需求几乎是每年数百倍的增长。
在此过程中,可以看到数据中心的机柜功率越来越大,能耗越来越高,这也意味着数据中心行业所面临的“双碳”任务更加艰巨与紧迫,同样更对数据中心的“节能减排”提出了更高的要求。
也正因此,液冷成为了未来数据中心供冷的“必选题”,市场热度逐步增加。根据IDC最新发布的《中国半年度液冷服务器市场(2024上半年)跟踪》报告显示,中国液冷服务器市场在2024上半年继续保持快速增长,市场规模达到12.6亿美元,与2023年同期相比增长98.3%。IDC预计,2023-2028年,中国液冷服务器市场年复合增长率将达到47.6%,2028年市场规模将达到102亿美元。
在此背景下,联想近期面向本地用户重磅发布了“联想问天海神”液冷品牌,该品牌基于联想20年来领先的液冷技术打造,更加聚焦国内市场,希望能够为本土客户提供符合国家标准,匹配中国数据中心设计、兼容本地处理器和软件生态的液冷解决方案,助力客户加速绿色升级。
客观地说,液冷技术从最初应用于科学计算领域,经过不断地发展和演进,特别是在数据中心能耗攀升以及“双碳”的需求牵引下,开始进入到更多的行业场景,而此时联想推出“联想问天海神”液冷品牌,以全场景液冷产品线,完善的液冷方案组合以及大规模高质量的交付经验服务中国用户,不仅代表着联想已经站在了液冷技术创新的主航道,更预示着数据中心将加速迈入“液冷”新时代。
01.
面向中国市场,
提供全场景液冷产品线
事实上,液冷并不是一个“新名词”,其是在解决数据中心服务器高密度部署出现的散热难题推出的一项技术,诞生于上个世纪80年代,但之前主要是一些超大规模互联网用户和高功耗计算用户在应用,其产业爆发的“拐点”发生在最近两三年。
一方面,从技术演进看,随着近两年智算中心的爆发,更高功耗的GPU成为了智算型服务器中的最主要功耗贡献者,尤其在训练服务器中,单服务器内多颗大功耗的GPU可占据整体服务器的80%—90%功耗。因此,如何降低服务器内部CPU+CPU的功耗变得日趋严峻。
另一方面,从国家政策看,为了降低数据中心能耗、助力实现双碳目标,国家对于数据中心的PUE指标要求逐年提升。《数据中心绿色低碳发展专项行动计划》中就提出,到2025年底,新建及改扩建大型和超大型数据中心的PUE指标要降至1.25以内,国家枢纽节点数据中心项目的PUE不得高于1.2 。
据联想中国基础设施业务群服务器产品部总经理周韬介绍,联想在液冷技术领域有着深厚的积累,其中自主研发的联想海神(Neptune)液冷技术已经演进到第六代,不仅汇集了材料学、流体力学、传热学等多学科的科研结晶,能够实现对关键部件100%全覆盖液冷散热设计,同时还面向中国市场推出了全场景液冷产品线,覆盖了从通用计算、智能计算到科学计算的全场景算力。
一是,在智能计算场景,全新升级的联想问天WA7880a G3聚焦于多元算力、灵活配置与节能高效三大方向,作为国产首款支持OAM 2.0模组的服务器,它可兼容国内主流GPU厂商的OAM标准GPU,展现了强大的生态兼容性与前瞻性。在高效节能方面,该服务器通过部署联想问天海神液冷方案,结合独立风道设计,有效降低了运行时的能耗与热量积聚,为用户打造了一个既环保又高效的AI算力中心。
二是,在科学计算场景,联想ThinkSystem SC750 V4 Neptune联手联想问天海神液冷方案,可以实现服务器100%的全覆盖冷板式液冷,从而有效降低整个数据中心的PUE,实现零噪音数据中心。该产品配合第六代垂直液冷产品联想ThinkSystem N1380 Neptune刀箱可实现整机柜交付,单机柜总功率可达100KW以上,在紧凑的封装中实现万亿参数的HPC和AI计算。
除此之外,联想ThinkSystem SD650 V3服务器,通过部署联想问天海神液冷方案,以及通过整机柜全水冷无风扇设计,也使得服务器散热效率高达98%,并实现60%以上的余热回收再利用,降低40%的能耗,让数据中心PUE可降至1.1。
三是,在通用计算场景,面向应用负载更加广泛的通用计算领域,联想推出针对大中型企业和云服务提供商的联想问天WR5220 G5通用服务器,支持关键部件如CPU、MEM及GPU等液冷散热方案。
此外,针对内存液冷散热,联想还创新打造“百变精硅”等多项创新技术,采用定制的软硅材料制作成1.27mm双层超薄导热垫的内存液冷模组,恰到好处的软硅压缩比既保证了与内存的充分接触和热传导效果,同时又确保在插拔安装过程中不会损伤内存且每根内存可独立操作;通过精确到0.01毫米级的软硅厚度调试与测试,不但保证了软硅与内存颗粒的接触缝隙,还允许在19英寸服务器内排列32个DIMM的结构。
周韬进一步表示:“联想服务器产品线实际上从G3这一代就已经有部分产品开始支持液冷设计,甚至是全液冷的覆盖;而到了G5这一代,则基本上可以做到全线产品都会支持液冷设计。未来两年,无论是不同的CPU处理器,还是不同的GPU处理器,以及不同的计算应用场景,联想都会实现液冷产品的全方位布局。”
由此可见,在当前数据中心走向液冷时代的重要关口,联想“与时俱进”的将液冷技术标准化和产品化,并面向中国市场打造出了全场景的液冷产品线,不仅为数据中心带来了更加高效和丰富的液冷产品线,更为中国用户提供了一个面向数据中心绿色升级的最佳选项。
02.
打造中国方案,
构建完善液冷方案组合
我们常说:“机遇总是留给最有准备的人。”
那么,为什么联想能够打造出全场景的液冷产品线呢?——背后的关键原因,既源于联想过去多年来持之以恒在液冷技术进行投入研发的韧性,更源于联想一直致力于构建技术领先、质量可靠、服务完善的液冷方案组合,这正是联想能够确保数据中心实现绿色高效与稳定运行的底蕴与底气。
对此,联想中国基础设施业务群服务器研发总监李鑫表示,作为液冷技术的最早探索者之一,在近十余年中,通过不断的演进,结合超过七万节点的液冷服务器集群交付项目经验,锤炼出联想液冷方案最佳实践,并一代又一代的融入到联想企业级液冷产品、方案和服务中,沉淀出了联想企业级液冷全景图。也正因此,无论是在液冷技术、质量安全保障和服务保障方面,联想都有着深厚积累以及丰富的实践,具体来看:
首先,液冷技术创新方面,在冷却液领域,联想问天海神液冷解决方案,创新性地采用成本低、无污染的去离子水作为热量传输介质,通过出色的并行水回路设计及微通道散热器设计,可降低CPU、GPU等部件的性能抖动,Linpack效率可提升5%-10%;在全冷板设计领域,联想问天海神液冷解决方案实现对CPU、GPU、内存、IO设备及电源等关键部件100%全覆盖液冷散热设计,散热系统机械故障率接近于0,大幅提高了系统的可靠性,且标准机架服务器可做到内存32根全液冷板,采用VR+CPU+DIMM冷板方案,液冷覆盖率居行业前列。
此外,在冷管设计上,全部采用预制医用304不锈钢管道,耐腐蚀性强且使用寿命长,有效防止表面氧化和腐蚀,适用于潮湿和化学腐蚀环境。二次侧预制冷管设计,无需焊接,无需现场加工,保障施工清洁度。除此之外,为了最大限度降低漏液带来的风险,联想问天海神液冷方案通过冷板漏液感应线能够实时监测服务器机柜内的冷板表面及链接管道是否有液体泄漏。这一创新技术能够迅速发现问题,提前发出预警,从而显著降低业务中断的可能性,并大幅提升系统的稳定性和可靠性。
更为重要的是,联想问天海神液冷方案还支持“600W CPU +1200W GPU”散热,整体PUE指标小于1.1,且热量回收超80%,可将数据中心功耗降低高达40%,极大满足国家对数据中心的“绿色低碳”要求。
其次,质量安全保障方面,联想冷板式液冷服务器采用一体式冷板,冷板加工工艺和检测方面有多重质量安全保障。最为典型的例子,就是焊膏改为一体成型焊片工艺,进一步提升焊接质量稳定及可靠性,焊着率提升到85%以上超出国标要求(国标为80%),依据实际应用要求增加最小焊缝管控并提升管控标准,焊接厚度>=1mm,保证无漏点。在基础上,通过AI辅助检测技术,还实现100%无损检测,为整个液冷系统提供更加坚实的质量安全保障。
除了生产制程实施严苛,联想冷板式液冷服务器在出货前,其冷板组件还执行100%干燥并监测管路内部湿度,严格保证出货质量;同时还给管路充氮,预打2个大气压氮气,保证冷板组件管路内部维持在无氧环境无细菌滋生;而在大规模验证方面,联想问天海神液冷技术在中国客户的上万台液冷服务器验证中,三年来未发生任何漏液事件,真正实现了安全可靠“零风险”。
最后,服务保障方面,根据客户的具体需求,联想可提供定制化的联想问天海神液冷部署解决方案,包括服务器选型、系统设计、安装调试等全生命周期服务保障。此外,联想问天海神液冷方案也支持节点交付、标准交付以及一体交付等。
不仅如此,联想还提供专业的超算踏勘部署服务,该服务由原厂专业团队实施交付,提供“交钥匙”服务内容,针对HPC集群系统提供“一站式”无忧服务。同时,AI智算踏勘服务,同样也可以可提供数据中心动环评估、空间承重评估、PUE评估等全方位勘测,让客户的数据中心更好的适配AI设备,最大程度发挥AI设备的计算能力。
值得一提的是,联想还将自身在液冷技术、质量安全保障、服务保障方面沉淀的经验凝练成为了《联想问天海神液冷方案白皮书》,该《白皮书》向业界充分展示了联想在液冷技术领域的创新突破,详细介绍了联想领先的设计理念与精湛的工艺技术,以及在安全质量和服务保障方面的综合实力,无疑也为数据中心用户选择液冷解决方案提供重要的借鉴和参考的价值。
在李鑫看来,过去液冷是一个相对比较“高大上”的技术,主要是在科学计算场景中使用,但随着智算中心的崛起,液冷被讨论和应用也越来越多,而作为液冷技术领域的领导者,联想也希望基于自身的技术创新和应用实践,能够给更多的数据中心用户带来因地制宜的“中国方案”,帮助更多的中国客户走好“绿色低碳”转型之路。
“整个白皮书我们分为了三册,其中一部分内容是如何去设计液冷相关的方案。比如现在市场流行的冷板式的液冷,那么它的设计方方法论是什么?冷却水的标准是什么?在冷板式液冷的循环过程中,水流的速度是什么等等。此外,质量部分的内容,主要是去告诉从业者如何保证液冷数据中心的长期可靠性,因为不可能装机之后就不管,它的维护质量和服务还会有更多的要求。如要定期检测水的杂质,pH 值低了添什么? pH 高值高了添什么?如果检测有异样的微生物,要加什么进去等等。总之,我们希望通过白皮书的形式,让业界更好地了解联想在液冷技术领域的所思所考,以及沉淀出的实践经验。”李鑫说。
如果站在今天看过去,每一次技术的创新,都可能是一场“蝴蝶效应”的开始。而现在,在液冷技术领域,可以看到联想正通过自身的技术创新和应用实践,所打造出的联想问天海神液冷品牌,不但为整个液冷产业的发展提供出了更优的技术和方案,同时也为整个液冷产业未来的技术创新开辟出了全新的视野,相信这一系列的探索与实践,将为数据中心走向绿色低碳提供更加可靠的技术和方案支撑,为千行万业的数智化转型提供更为坚实的保障。
03.
服务中国用户,
加速数据中心绿色升级
当然,作为“专属”中国客户的液冷品牌,以及专为“匹配”中国客户的数据中心而设计的联想问天海神,不仅技术领先,同时其超过七万节点的液冷服务器集群交付项目经验,广泛应用于高校、科研机构、政企等领域的落地场景,也为联想深度服务中国用户,加速数据中心绿色低碳升级夯实了坚实的基础。
在教育行业,华南理工大学基于联想的异构算力设计,搭配CPU和GPU的混合使用满足多样化的计算需求,同时与联想问天海神液冷方案构建了校级智算中心平台,整体双精度算力7.3PFlops,全液冷设计(涵盖电源模块),实现了95%以上的水冷散热效率,数据中心能源成本缩减40%以上,达到了国内绿色节能标准的最高等级。
同样,南京大学携手联想基于联想服务器、联想DSS存储、LiCO调度软件打造的高性能计算集群,提供了一套从最底层基础设施到上层资源管理门户在内的完整HPC 系统,其中联想问天海神液冷方案的应用比风冷节省45%的能耗,陪伴南京大学精准完成多领域学科复杂演算任务。
在制造行业,联想助力吉利汽车集团打造了吉利星睿智算中心·智能仿真平台,是目前国内已知汽车制造企业一次性建设的最大仿真科学计算集群。该平台支持吉利汽车集团实现12000+次/辆的模拟安全碰撞。同时,联想问天海神液冷方案的应用,将PUE值降至1.1062,一年满负荷运行,可减少约3179吨碳排放。
在科研领域,联想为海南人工智能计算中心提供了4.86 PFLOPS FP64算力方案,且PUE值整体低于1.2,该方案同样基于联想问天海神液冷方案打造,采用间接式液冷方式对计算机服务器进行冷却,同时对CPU、GPU等部件采用微通道散热器,对内存、较低功耗的I/O板卡等部件采用导热板散热技术。通过减少对空调和散热器的需求, 海南人工智能计算中心节省了40%以上的能耗成本,热量还可以循环利用,给机房、社区加热,同时噪音也比风冷低很多。
联想中国基础设施业务群战略总监黄山强调表示:“联想问天海神传承先进技术的同时也深入匹配中国客户需求,未来借助本地质量把控与服务能力,我们希望能够因地制宜为中国客户提供全面且成本优化的智算液冷解决方案,同时持续引领面向超智融合的本地液冷技术创新。”
所谓“因地制宜”,指的是在新建智算中心场景中,如果客户以搭建AI训练集群为目的,那么给GPU上冷板式液冷是相当划算的,联想则支持客户搭建液冷数据中心;而一些老旧的数据中心出于降低PUE值的要求,但本身又很难进行大规模的“改造”,那么联想也能提供风液混合的方案组合,实现数据中心的“降本增效”。
黄山最后表示,在液冷技术方面,联想已经全面布局和引领液冷关键技术的研发及应用,目前可灵活应用风液混合、全液冷、整机柜液冷和单相浸没式等主流液冷技术。在此基础上,联想也将持续面向超智融合的计算场景,展开本地的液冷技术创新。
第一,在冷板液冷方向,联想已规模量产冷板液冷服务器及整机柜产品,全面覆盖高功耗部件的散热方案;正在积极推动低成本冷板方案的应用,实现风液同价目标;同时已着手研发相变冷板,来积极应对未来更高功耗芯片的需求。
第二,在单相浸没液冷方向,联想与清华大学开展深入技术预研合作,研发流场优化方案及高性能散热器,使冷却液的冷却效率最大化,获得最优PUE;同时在冷却液、Tank设计方案、CDU等各方面探索低成本方案,推动浸没液冷的快速普及。
第三,在相变浸没液冷方向,联想正快速开展技术积累,计划于2025年发布相变浸没方案,为高速增长的系统散热功耗需求准备好解决方案,为更冷静、更可靠的服务器及数据中心产品提供有力支持。
总的来看,数据中心迈向“液冷”新时代,联想不仅是探索者,也是实践者,更是领导者。同样,基于“联想问天海神”所打造的面向中国市场的全场景液冷产品线,丰富和完善的方案组合以及大规模且经实际验证的落地方案,相信联想将在液冷技术创新领域产生更大的创新力、想象力和实践力,并持续推动数据中心的绿色低碳升级新进程。