一本《异构智算白皮书》，半部智能算力的演进史

从去年开始，大模型的出现“一石激起千层浪”，将人工智能推到了前所未有的高度。

随着智能算力“流”入千行百业，越来越多的行业场景与人工智能相结合，从智慧医疗，智慧金融，智慧城市再到无人驾驶，智能化转型延伸到各行各业的方方面面。麦肯锡的报告也预测：到2040年，生成式AI每年可为全球经济带来2.6万亿至4.4万亿美元的增长。

越是巨大的市场机遇，越需要稳固的“底座”，否则就会成为“空中楼阁”。无疑，智能算力就是行业智能化时代的“算力底座”。

如何让这个“算力底座”发挥最大的能量，解决异构智算带来的诸多挑战就是当前的重中之重。由联想、中国智能计算产业联盟和异构智算产业生态联盟，共同出品的《异构智算产业趋势与技术白皮书》正是为此而来。

智算崛起，标准先行

智算时代，最典型的特征就是算力的异构化。

异构算力通常由CPU、GPU、FPGA、ASIC等不同的算力处理体系组成，这些不同类型的处理器各自具有独特的优势，能够满足不同场景中的应用需求。通过将它们组合在一起，可以实现计算资源的优化分配和高效利用，进而实现计算效力最大化。

换言之，要发挥智算的最大价值，就必然要走通异构算力体系的路。

异构智算，最大的挑战就是要构建开放的平台，能够适应和兼容各种技术体系。同时还要通过智算平台，能够把这些技术传递给上层应用，赋能千行百业。

联想中国基础设施业务群战略总监黄山

联想中国基础设施业务群战略总监黄山说：“在这本《白皮书》当中，联想起到的主要是协调的作用，我们邀请了各个权威机构的专家和生态伙伴，并从联想异构智算的案例集当中优选了十大案例，进行了集中的呈现，希望可以做到‘他山之石可以攻玉’，为智算产业的发展带来指引。”

《未来呼啸而来》中提出：未来的创新将不是单向式、重度垂直的，若干个重要领域的创新需求之间，会突然产生“叠加效应”，并改变我们的生活。智算生态，也是由产业链当中处在不同环节的标准机构和企业，将力量叠加，产生的“合力”推动了整个产业的发展。

中国电子技术标准化研究院云计算研究室副主任陈志峰

中国电子技术标准化研究院云计算研究室副主任陈志峰表示，“异构智算最终是要用起来。无论是要解决烟囱化，兼容性，还是软硬件融合等问题，标准的建立是非常重要的，从芯片层一直到应用层，所有的生态伙伴一起来群策群力，共同让智算的生态繁荣起来。”

英特尔首席云架构师胡明月

对于标准化，英特尔首席云架构师胡明月则强调，“不能忽略的一点是，如果在封闭的系统里，连接的成本其实很高，所以英特尔更强调系统的开放性，希望用通用的标准去实现连接。”

恰如所言，智算是一个与通用算力截然不同的赛道，在百花齐放的基础设施架构下，发挥算力的最大效能，标准先行的确是应时之举。从这个角度，《白皮书》的发布本身，也是希望通过推动标准的落地，以及相关行业内的标杆案例展示，为智算深入各行各业，成千上万的场景提供帮助。

如何解决异构环境下的算效问题

根据IDC数据预测，2027年中国智能算力规模将达到117EFlops，是2024年2.3倍，增速将达通用算力2倍及以上，算力规模的扩大为智算带来了很多挑战。

联想万全异构智算平台专家郭晋兵

联想万全异构智算平台专家郭晋兵说：“大模型为智算带来了新的问题，就是它的集群规模会越来越大，一方面对智算的需求也变得大，另一方面也会带来了算力性能损失和算力多样化的问题。”

陈志峰也表示：“现在很多企业都在建万卡集群，甚至十万卡集群，在这么大的规模下，就一定会存在多种卡并存的情况，异构化的大模型智算集群已经是大势所趋，自然也会遭遇到统一管理、资源隔离、算力调度、任务分配等难题，所以异构智算的管理平台建设是一个关键。”

联想万全异构智算平台，正是为了解决这些痛点而来。“万全异构智算平台，不仅仅是为了解决异构智算统一管理的复杂性，也是为了发挥异构算力的最大价值，因为经过我们的观察，GPU卡作为系统中最贵的组件，实际的利用率并不高，目前平均只有30%左右。”黄山说。

引起智算效率普遍不高的原因，其实是异构算力软硬件融合情况不够好所带来的。

因为，过去芯片都是烟囱式的，都在构建自己的软硬件架构。但是，不同服务器类型、网络类型和存储类型之间的排列组合，会是一个复杂的矩阵。每个矩阵只有配置完整之后，才能顺滑的跑通上面的应用。而每个矩阵都有每一个矩阵的特性，用户需要在数百种配置当中去决策，无形中带来了很多困难。

据郭晋兵介绍，联想万全异构智算平台的五大能力之首，就是算力匹配魔方。基于海量的硬件评测和AI算子算法集成工作，联想构建了AI场景与算法与集群硬件三者匹配关系的算力魔方知识库。用户只需输入场景和数据，系统即可自动加载最优算法和调度最佳集群配置，极大地简化了选择验证过程。

除此之外，平台内置的GPU内核态虚拟化救赎，能够大幅提升GPU的利用率, vGPU的利用率可以从80%提升到95%。另外，集合通信算法库可以使训练效率提升10%～15%；再有AI与HPC集群超级调度器，能够在1小时内自动完成跨集群资源调度和共享。

“万全异构智算平台实际上要解决就是两件事：一是打破传统算力的烟囱式架构，二是超智融合，让算力在智算和超算两套系统中平滑迁移，并发挥最大效能。”黄山说。

生态共进，以智算为产业打造“长尾”

说到算力在不同算力系统中平滑流转，这与天数智芯的技术实践其实不谋而合。

天数智芯副总裁兼客户项目部总经理宋煜

天数智芯副总裁兼客户项目部总经理宋煜提出：“今天的数据中心当中，实际上会拥有不同厂商的通用GPU，或者同一家厂商的不同代际的GPU。无形中就出现一个问题：算力没有办法融合在一起，这就是算力孤岛或者资源墙。”

打破资源墙，让不同代际甚至不同厂商之间的GPU，联合在一起支持大模型的训练，就要建立一个异构、统一的计算底座，支持大模型在混合异构的集群里去做训练。一个关键的技术点，就是不同的GPU之间如何通信。

而天数智芯的解决方案就是要解决这个问题，在混合异构集群中兼容不同品牌的GPU，同时还要确保不同GPU之间的数据交互是准确的。那么如何去判断混合异构集群的性能不输于单一GPU集群？

宋煜给出了一个很好的解决方案：“比如有两个单独的集群，分别是NV集群和天数集群。单独训练时的峰值效率求和所得的百分之比，如果与各自集群原生算力的峰值效率相当，就解决了客户对混合异构集群算力效能的担忧。事实证明，我们的混合集群的峰值效率可以达到92%与单一GPU集群的效率相当。”

我们不难看出，在生态各界的携手之下，异构智算的前景一片光明。

谈到未来，黄山相信，“未来的推理市场会加速，这个市场选择的不再是大规模算力，而是垂直的方案，软硬融合的方案，这也是联想未来会持续去优化的方向。”

可持续发展性，则是胡明月更为关注的点，他提出，“随着集群规模越来越大，功耗也会越来越大。不可避免地就采取各种各样的制冷措施，我们和联想也会共同推动一些制冷的技术标准。”

宋煜表示，“联盟中所处不同位置的伙伴，看到的问题和需求是不同的，比如端侧的推理可能会有好的产品组合出现，我们也希望通过产品的迭代能够去参与到其中，和伙伴一起提供完整的解决方案，让客户能够享受到智算的红利。”

而对联想来说，“我们也希望能够针对不同行业的客户，模型的变化和应用的变化，去细分算力的需求，通过更为精细化的方式，与生态伙伴们共同去满足日益增长的智算需求。” 郭晋兵说。

我们认为，大模型的风口终将成为过去式，但由此引发的智算变革，乃至更为深远的行业智能化转型会是长期持续的进程，解决了异构智算的供需问题，就等于为整个产业创造了“长尾效应”。