一切计算皆AI，开放计算再破局 - 科技资讯(世良情感网)

“OpenAI最差的决定就是没有开放它的大模型。”著名科技预言家凯文·凯利在2024年最新演讲中强调开源对于AI发展的重要性。

的确，开源大模型近年来迸发出巨大的产业活力，推动了AI的协作与创新：2023年全球新发布的基础模型中有三分之二为开源模型，80%以上的AI项目使用开源框架，开源大模型下载量超过3亿次、并衍生出3万个新模型……

华丽的数字背后，离不开计算产业的鼎力相助，尤其是开放计算功不可没。如今，“开源大模型+开放计算”的黄金组合，正深刻影响着AI和计算产业的发展方向。正如浪潮信息服务器产品线总经理赵帅所言：“AI时代，开放计算重要价值在于应对多元算力挑战，通过产业协作来促进AI的Scale和创新。”

AI重构计算产业

2020年，大模型训练Scaling Law黄金规则的提出，拉开了AI对于计算产业深远影响的序幕。

所谓Scaling Law黄金规则，即大模型增加参数量、数据集和计算量，就可以得到性能更优的模型效果，当模型规模达到一定阈值，就会出现智能涌现。例如，Meta最新发布的开源Llama 3.1大模型参数规模高达4030亿，能力取得长足进步，甚至在多个方面超越闭源大模型。

Scaling Law黄金规则意味着AI大模型的规模、复杂性、数据量将不断攀升，对于算力等基础设施提出极高挑战。浪潮信息服务器产品线总经理赵帅在2024开放计算中国峰会上表示，AI大模型给基础设施带来了全面Scale的全新挑战。

从产品技术维度来看，为应对AI大模型的规模性和复杂性，算力等基础设施需要在纵向扩展（Scale up：单系统性能提升）和横向扩展（Scale out：集群规模扩展）方面来解决挑战：纵向扩展通过更强大或更多AI加速卡、处理器以及更高速互联通信，来增加单个设备或节点的计算能力和计算效率；横向扩展则通过不断增加计算节点构建大规模集群来满足AI大模型的算力需求。

“以算力横向扩展为例，会带来集群网络带宽、基础设施快速部署、算力资源管理以及高效供电与制冷等一系列全新挑战。”赵帅如是说，“当前算力的纵向扩展与横向扩展正处于并存迭代、快速发展的过程。”

另一方面，AI大模型的市场应用迎来关键节点，持续带动更加丰富和细化的算力需求。IDC认为，中国大模型应用在2024年进入到落地期，垂直领域大模型的商业化应用正在加速，尤其是多模态大模型的涌现，应用场景将更加丰富，对于AI算力需求迫切且多样。

鉴于AI大模型对于算力基础设施带来的全方位需求，仅仅依靠传统产业模式和一两家领先厂商是远远不够的，产业生态的协作与创新成为必然。因此，开放计算则再次被委寄以重望，并在产业协作实践与创新中展现出巨大价值。OCP（开放计算社区）基金会理事 David Ramku直言，“人工智能的快速增长正在重构数据中心的生态系统，开放计算项目的全球化协作创新模式可以最大限度激发创新活力。”

据悉，过去三年里，OCP成员数量增长至360多家，增幅接近50%，社区项目和子项目数量超过40个。这其中，像OAM（开放加速规范项目）、开放液冷规范、OpenBMC等项目在带动AI算力产业高质量和推动AI创新等方面成果显著。在本次开放计算峰会上，开放算力模组规范(OCM)正式启动，首批成员包括中国电子标准院、浪潮信息、Intel、AMD、百度等产业伙伴宣布立项，旨在解决AI时代的多元算力等系列挑战。

OAM：硬件开放的完美价值体现

在大模型的带动下，AI应用创新速度“一日千里”，也让AI加速芯片成为市场中的香饽饽。

但一大批AI加速芯片企业、产品涌现，不仅让市场一定程度陷入混乱的局面，也在兼容性、适配性等方面增加用户使用AI算力产品的难度。如何实现各类AI加速卡兼容、接口标准化就成为破局的关键。因此，OAI（Open Accelerator Infrastructure）项目在2019年孕育而生，以解决单个服务器内多元AI加速卡形态和接口不统一、高速互连效率低、研发周期长等问题。

在OAI项目中，OAM设计规范发展最为迅速，获得包括英伟达、英特尔、AMD、微软、阿里巴巴、谷歌、浪潮信息等AI芯片企业、互联网企业、系统厂商的广泛支持，近年来完美展现出硬件开放的巨大产业价值。目前，OAM已成为全球最多高端AI加速芯片遵循的统一设计标准，全球20多家芯片企业支持OAM规范标准。

以AI系统研发为例，受制于AI芯片动辄两三年的迭代升级周期，AI系统的产品设计难度大、研发周期长，愈发难以满足快速变化的AI创新算力需求。OAM设计规范改变了一切，使得AI芯片可以节省研发时间6个月以上，并带动以浪潮信息为代表系统厂商的产品创新速度。相关数据统计，OAM设计在过去几年已为整体产业研发投入带来数十亿元的节省，AI算力产业创新的难度得以大幅降低，极大满足市场需求。

浪潮信息是业界最早拥抱且深度参与OAM规范的系统厂商，并定义业界第一个符合OAM规范的8卡互连硬件系统，其全球首款支持多家不同型号AI加速芯片的开放计算系统MX1可让不同的加速器共享统一的服务器，用户可根据需求更换不同的AI加速芯片，而无需更换整机系统，大幅降低AI使用门槛。去年，浪潮信息发布基于OAM v1.5规范的开放加速计算平台NF5698G7，支持多款基于OAM标准的开放加速芯片，推动完善着整个OAM产业生态。

“基于OAM的标准化平台，不仅大大加速AI芯片的适配兼容过程，还有利于AI芯片产品的迭代升级，更让算力部署和使用得以提速，从而快速支撑起大模型和AIGC应用的创新需求。”赵帅介绍道，“明年浪潮信息会基于UBB2.0推出交换拓扑，支撑正在开发的数十款OAM2.0产品的适配兼容。”

显然，OAM成为开放计算产业链开放、协作成功的典范。当AI浪潮来临之际，OAM真正以AI需求为牵引，通过硬件产品、设计规范和知识共享，实现产业链的高效协作、AI算力创新加速。例如，当前涌现出越来越多千卡、万卡AI集群，但也带来了AI大模型训练的稳定性挑战，意外中断的情况频发、有效训练时间不足。为此，浪潮信息、字节等10余家企业联合定义OAM监控管理规范，兼顾不同AI芯片功能特性，完善监控管理数据处理机制，构建分层故障诊断机制，定义标准数据传输协议格式，以降低AI芯片训练的故障。

据悉，OAM规范还在持续迭代，未来基于OAM2.0规范的AI加速卡将支持1024张加速卡的卡间互联，有望突破大模型互联瓶颈。

开放算力模组规范OCM正式启动

近年来，计算产业因为AI算力而受到广泛关注，而通用算力似乎“备受冷落”。事实上，随着AI大模型广泛进入各行各业，AI大模型一方面与PC、手机、边缘服务器等设备紧密结合，另一方面又与HPC、数据库、大数据、BI、备份软件等各类应用的深度融合，这一切使得算力范式再次变化，通用算力也需要迎接AI的浪潮，承担起AI融合的重任。

“未来不仅仅是AI芯片，一切计算皆AI，通用算力也需要具备AI计算的能力。”赵帅旗帜鲜明地表示。

另一方面，通用算力芯片依然是计算产业中的核心骨干，并呈现出百花齐放的发展态势，x86、ARM、RISC-V等不同架构的芯片高速发展，让多元化算力的趋势更加明显。另一方面，不同CPU协议标准不统一，随着系统功耗、总线速率、电流密度不断提升，导致硬件开发、固件适配、部件测试资源等时间激增，给算力系统设计带来巨大挑战。

赵帅表示：“应用场景的丰富化、复杂化和快速变化，使得算力平台的迭代速度需要提速。因此，需要一个统一的算力底座，来解决CPU计算的效率、兼容和迭代升级等问题。”

因此，本次开放计算峰会上启动的开放算力模组规范(OCM)受到业界广泛关注。OCM规范是将过去紧耦合的服务器架构进行“分散”，以CPU和内存作为最小的算力单元，通过标准化对外高速互连、管理协议、供电接口等来实现多CPU的“兼容并蓄”。

显然，OCM规范对于开放计算、计算产业的意义重大。有了OCM规范之后，算力系统厂商可以加快产品迭代速度，并提升产品研发效率；另外，届时，采用OCM规范的算力平台针对不同应用需求，只需更换CPU即可，实现算力快速抵达用户，让用户可根据需求变化快速地利用最先进、最适配的算力。

对于OCM标准化未来可能带来产品同质化的挑战。浪潮信息认为，标准化必然会带来同质化，但计算产品走向标准化和开放化是大势所趋，既能够让新技术实现快速迭代和落地，又能够让厂商与用户连接更加紧密，更能够促进新技术的产业化。

全方位进化，加速AI创新

AI改变世界的“进度条”才刚刚开始。对于算力基础设施而言，OAM、OCM等规范的出炉与实践，仅仅是算力范式的进化。面向未来，随着算力需求依然会持续大幅增加，算力还将继续Scale，必须在运维、管理、制冷散热等方面全方位进化，从而加速AI创新。

例如，异构多元算力的发展，必然会带来固件平台分支庞大、适配管理困难等挑战。为此，浪潮信息去年发布了基于OpenBMC的InBry开放管理平台，经过一年多的发展，实现多种管理规范的统一和多固件分支版本适配等挑战，并建立统一管理规范和在标准接口规范下的异步、自主定制迭代，为AI的发展进一步做提速。

又如，AI芯片功耗的飙升，随着万卡、十万卡规模的AI集群越来也多，整个数据中心能耗问题突出。产业链上下游亟需高效协作和推动液冷技术的产业化，让液冷技术走进每一个数据中心。为此，浪潮信息联合产业链合作伙伴制定了四个液冷相关标准，推动GPU、CPU等算力组件液冷化，以及模块化标准接口、液冷机柜等，解决未来AI集群规模化下的能耗挑战。

“开放计算对于计算产业未来发展的意义重大。作为产业链一份子，浪潮信息会坚定走开放的路线，并且更加开放、走的更快，拥抱新技术、推动技术产业化，实现与用户、产业链共赢。”赵帅表示。