一本《异构智算白皮书》,半部智能算力的演进史

科技正能量 2025-01-08 22:00:35

从去年开始,大模型的出现“一石激起千层浪”,将人工智能推到了前所未有的高度。

随着智能算力“流”入千行百业,越来越多的行业场景与人工智能相结合,从智慧医疗,智慧金融,智慧城市再到无人驾驶,智能化转型延伸到各行各业的方方面面。麦肯锡的报告也预测:到2040年,生成式AI每年可为全球经济带来2.6万亿至4.4万亿美元的增长。

越是巨大的市场机遇,越需要稳固的“底座”,否则就会成为“空中楼阁”。无疑,智能算力就是行业智能化时代的“算力底座”。

如何让这个“算力底座”发挥最大的能量,解决异构智算带来的诸多挑战就是当前的重中之重。由联想、中国智能计算产业联盟和异构智算产业生态联盟,共同出品的《异构智算产业趋势与技术白皮书》正是为此而来。

智算崛起,标准先行

智算时代,最典型的特征就是算力的异构化。

异构算力通常由CPU、GPU、FPGA、ASIC等不同的算力处理体系组成,这些不同类型的处理器各自具有独特的优势,能够满足不同场景中的应用需求。通过将它们组合在一起,可以实现计算资源的优化分配和高效利用,进而实现计算效力最大化。

换言之,要发挥智算的最大价值,就必然要走通异构算力体系的路。

异构智算,最大的挑战就是要构建开放的平台,能够适应和兼容各种技术体系。同时还要通过智算平台,能够把这些技术传递给上层应用,赋能千行百业。

联想中国基础设施业务群战略总监黄山

联想中国基础设施业务群战略总监黄山说:“在这本《白皮书》当中,联想起到的主要是协调的作用,我们邀请了各个权威机构的专家和生态伙伴,并从联想异构智算的案例集当中优选了十大案例,进行了集中的呈现,希望可以做到‘他山之石可以攻玉’,为智算产业的发展带来指引。”

《未来呼啸而来》中提出:未来的创新将不是单向式、重度垂直的,若干个重要领域的创新需求之间,会突然产生“叠加效应”,并改变我们的生活。智算生态,也是由产业链当中处在不同环节的标准机构和企业,将力量叠加,产生的“合力”推动了整个产业的发展。

中国电子技术标准化研究院云计算研究室副主任陈志峰

中国电子技术标准化研究院云计算研究室副主任陈志峰表示,“异构智算最终是要用起来。无论是要解决烟囱化,兼容性,还是软硬件融合等问题,标准的建立是非常重要的,从芯片层一直到应用层,所有的生态伙伴一起来群策群力,共同让智算的生态繁荣起来。”

英特尔首席云架构师胡明月

对于标准化,英特尔首席云架构师胡明月则强调,“不能忽略的一点是,如果在封闭的系统里,连接的成本其实很高,所以英特尔更强调系统的开放性,希望用通用的标准去实现连接。”

恰如所言,智算是一个与通用算力截然不同的赛道,在百花齐放的基础设施架构下,发挥算力的最大效能,标准先行的确是应时之举。从这个角度,《白皮书》的发布本身,也是希望通过推动标准的落地,以及相关行业内的标杆案例展示,为智算深入各行各业,成千上万的场景提供帮助。

如何解决异构环境下的算效问题

根据IDC数据预测,2027年中国智能算力规模将达到117EFlops,是2024年2.3倍,增速将达通用算力2倍及以上,算力规模的扩大为智算带来了很多挑战。

联想万全异构智算平台专家郭晋兵

联想万全异构智算平台专家郭晋兵说:“大模型为智算带来了新的问题,就是它的集群规模会越来越大,一方面对智算的需求也变得大,另一方面也会带来了算力性能损失和算力多样化的问题。”

陈志峰也表示:“现在很多企业都在建万卡集群,甚至十万卡集群,在这么大的规模下,就一定会存在多种卡并存的情况,异构化的大模型智算集群已经是大势所趋,自然也会遭遇到统一管理、资源隔离、算力调度、任务分配等难题,所以异构智算的管理平台建设是一个关键。”

联想万全异构智算平台,正是为了解决这些痛点而来。“万全异构智算平台,不仅仅是为了解决异构智算统一管理的复杂性,也是为了发挥异构算力的最大价值,因为经过我们的观察,GPU卡作为系统中最贵的组件,实际的利用率并不高,目前平均只有30%左右。”黄山说。

引起智算效率普遍不高的原因,其实是异构算力软硬件融合情况不够好所带来的。

因为,过去芯片都是烟囱式的,都在构建自己的软硬件架构。但是,不同服务器类型、网络类型和存储类型之间的排列组合,会是一个复杂的矩阵。每个矩阵只有配置完整之后,才能顺滑的跑通上面的应用。而每个矩阵都有每一个矩阵的特性,用户需要在数百种配置当中去决策,无形中带来了很多困难。

据郭晋兵介绍,联想万全异构智算平台的五大能力之首,就是算力匹配魔方。基于海量的硬件评测和AI算子算法集成工作,联想构建了AI场景与算法与集群硬件三者匹配关系的算力魔方知识库。用户只需输入场景和数据,系统即可自动加载最优算法和调度最佳集群配置,极大地简化了选择验证过程。

除此之外,平台内置的GPU内核态虚拟化救赎,能够大幅提升GPU的利用率, vGPU的利用率可以从80%提升到95%。另外,集合通信算法库可以使训练效率提升10%~15%;再有AI与HPC集群超级调度器,能够在1小时内自动完成跨集群资源调度和共享。

“万全异构智算平台实际上要解决就是两件事:一是打破传统算力的烟囱式架构,二是超智融合,让算力在智算和超算两套系统中平滑迁移,并发挥最大效能。”黄山说。

生态共进,以智算为产业打造“长尾”

说到算力在不同算力系统中平滑流转,这与天数智芯的技术实践其实不谋而合。

天数智芯副总裁兼客户项目部总经理宋煜

天数智芯副总裁兼客户项目部总经理宋煜提出:“今天的数据中心当中,实际上会拥有不同厂商的通用GPU,或者同一家厂商的不同代际的GPU。无形中就出现一个问题:算力没有办法融合在一起,这就是算力孤岛或者资源墙。”

打破资源墙,让不同代际甚至不同厂商之间的GPU,联合在一起支持大模型的训练,就要建立一个异构、统一的计算底座,支持大模型在混合异构的集群里去做训练。一个关键的技术点,就是不同的GPU之间如何通信。

而天数智芯的解决方案就是要解决这个问题,在混合异构集群中兼容不同品牌的GPU,同时还要确保不同GPU之间的数据交互是准确的。那么如何去判断混合异构集群的性能不输于单一GPU集群?

宋煜给出了一个很好的解决方案:“比如有两个单独的集群,分别是NV集群和天数集群。单独训练时的峰值效率求和所得的百分之比,如果与各自集群原生算力的峰值效率相当,就解决了客户对混合异构集群算力效能的担忧。事实证明,我们的混合集群的峰值效率可以达到92%与单一GPU集群的效率相当。”

我们不难看出,在生态各界的携手之下,异构智算的前景一片光明。

谈到未来,黄山相信,“未来的推理市场会加速,这个市场选择的不再是大规模算力,而是垂直的方案,软硬融合的方案,这也是联想未来会持续去优化的方向。”

可持续发展性,则是胡明月更为关注的点,他提出,“随着集群规模越来越大,功耗也会越来越大。不可避免地就采取各种各样的制冷措施,我们和联想也会共同推动一些制冷的技术标准。”

宋煜表示,“联盟中所处不同位置的伙伴,看到的问题和需求是不同的,比如端侧的推理可能会有好的产品组合出现,我们也希望通过产品的迭代能够去参与到其中,和伙伴一起提供完整的解决方案,让客户能够享受到智算的红利。”

而对联想来说,“我们也希望能够针对不同行业的客户,模型的变化和应用的变化,去细分算力的需求,通过更为精细化的方式,与生态伙伴们共同去满足日益增长的智算需求。” 郭晋兵说。

我们认为,大模型的风口终将成为过去式,但由此引发的智算变革,乃至更为深远的行业智能化转型会是长期持续的进程,解决了异构智算的供需问题,就等于为整个产业创造了“长尾效应”。

0 阅读:2
科技正能量

科技正能量

相信文字有力量改变世界,坚持科技改变生活的正面角度。