大模型时代AIInfra夯实中间层：人工智能“三明治”架构锋芒初露

2023年，AIGC的大戏从年头唱到了年尾：第一幕，ChatGPT引发大模型百舸争流；第二幕，算力紧缺使得硬件基础设施备受关注；第三幕，应用创新与场景落地成为业界焦点——如今，算力与应用之间的断层问题愈发明显，AI Infra由此浮出水面。

从ICT产业的演进轨迹来看，三层架构似乎是宿命般的终极图景：在传统的本地部署阶段，操作系统、数据库、中间件等基础软件通过控制硬件交互、存储管理数据、网络通信调度等功能，解决底层硬件系统的复杂性难题，让上层应用开发者能专注于业务逻辑进行创新；在云定义一切的时代，也形成了IaaS、PaaS、SaaS协同进化的经典架构，其中PaaS层提供应用开发环境和数据分析管理等服务，为云计算加速渗透奠定了坚实基础。

经历了漫长的蛰伏期后，AIGC按下了人工智能通用化进程的快进键，整个产业在狂飙突进的氛围中急速重构。算力与应用无疑是最耀眼的主角，但二者之间的鸿沟堪比天堑，大模型面临“悬浮”或“踏空”的风险。

从这个意义上讲，AI Infra犹如一座桥，可以承担类似基础软件或PaaS曾经扮演的角色——通过构建新型的软件栈及综合服务，赋能算力挖潜、模型优化和应用开发，成为连接算力与应用的中坚力量。

当然，AI Infra是新生事物，在演进过程中可能遇到诸多障碍，甚至迄今连基本的定义亦莫衷一是。此时，广开言路、协力突围是从野蛮生长向健康发展迈进的最佳路径。在近日举办的2023人工智能计算大会（AICC）“AI Infra技术创新”论坛上，浪潮信息、潞晨科技、零隙智能、始智AI、清昴智能、无问芯穹等先锋企业围绕AI产业的基础软件支撑、大模型训练和推理优化以及AI平台化的最新趋势展开思想碰撞，为AI Infra的持续进化指明了方向。

显而易见，AI Infra决定了大模型的能力边界，也将最终影响人工智能“天花板”的高度。这项系统工程刚刚起步，未来的旅程值得期待。

大模型驱动AI平台化迈向纵深

追根溯源，大模型的兴起实际上为AI向通用化、平台化演进创造了必要条件，也是AI Infra价值日益凸显的底层逻辑。

中国信通院人工智能研究中心常务副主任魏凯认为，过往的AI创新呈现出离散化的特征，烟囱式的应用占据主流，而在大模型时代“横向打通”渐成潮流，人工智能通用化需要平台化的AI基础设施提供支撑。

事实上，在AIGC风起云涌之前，关于AI中台的理论与实践就已如火如荼地展开。但当时的AI中台更像是“救火队员”，功能比较庞杂，干了不少“脏活”、“累活”，却难以获得上下游的认可。

大模型为AI平台化搭建起更宽广的舞台，也让AI Infra“掘金卖铲”的逻辑更具确定性，进而赢得可观的发展空间。相关机构预测显示，未来3～5年AI Infra产业将保持30%+的高速增长。

就像“三明治”的两片面包间可以有无数种夹层选择，身处算力与应用之间的AI Infra同样不拘一格。从广义上看，AI Infra涵盖人工智能基础框架技术，涉及大模型训练、部署领域的各种底层设施；狭义而言，基础软件栈是AI Infra的核心组成部分，优化算力算法、促进应用落地是其主要目标。

AI Infra定义的相对开放为不同的路径探索提供了更多可能。基于各自的资源禀赋与市场定位，业界的资深厂商与新兴玩家正在积极拓展AI Infra的疆界，不少做法值得借鉴。

OGAI开创AI Infra全栈服务新模式

在充满不确定性的道路上，率先找到清晰的赛道，快速建立显著的里程碑尤为重要。AI Infra市场尚处于混沌期，急需具备产业生态构建能力的平台型厂商牵头突围。

由于AI Infra承上启下的特殊地位，在算力基础设施和大模型开发与应用中都保持领先的浪潮信息显然是合适的“破冰”先锋。浪潮信息AI算法方案架构师Owen Zhu表示，基于算力领域服务客户的实践经历以及源大模型的开发经验，浪潮信息能准确把握困扰各类行业用户的痛点，进而提出有效的AI Infra解决方案。

例如：一些斥巨资购买算力设备的用户发现很难驾驭庞大而复杂的AI集群，“好比面对一台动力强劲的法拉利，却不知道怎样驾驶”；还有的大模型开发企业无法连续训练超过1～2天，不少故障需要手动检测和修复，浪费计算资源和研究人员的时间。

不难看出，市场迫切需要保障大模型生产力的Al Infra，而浪潮信息已经提前踩过“坑”，且帮助众多客户解决过真实场景问题，打造覆盖AI算力系统环境部署、算力调度保障及模型开发管理能力的智算软件栈，可谓正逢其时。

在这样的背景下，OGAI (Open GenAI Infra)“元脑生智”应运而生，针对大模型建设与开发中的系统全栈、兼容适配、性能优化等普遍问题，秉承全栈全流程、算力充分释放、实战验证提炼的设计原则，找到了加速大模型落地进程的最优路径。

据了解，OGAI由5层架构组成，从L0到L4分别对应基础设施层的智算中心OS、系统环境层的PODsys、调度平台层的AIStation、模型工具层的YLink和多模纳管层的MModel。

在算力集群部署方面，PODsys是业界首个开源的AI算力集群系统环境部署方案，浪潮信息把多年来做AI算力集群优化的经验沉淀其间；AIStation调度平台在大规模训练的长时保障方面可以实现自动化断点续训，自动检测计算异常，并在5分钟内快速恢复异常中断的计算任务；且AIStation已经以标准化、模块化的方式稳定接入超过40+芯片，将多元芯片接入工作量减少90%。

在Ylink工具层，浪潮信息构建了流程化、可自定义的数据清洗Pipeline，将1PB数据清洗时间从1个月缩短到15天，另外文本审核过滤的准确率也达到93%，远高于业界平均的85%；在大模型训练的计算效率优化方面，通过对分布式并行算法的极致优化把千亿参数大模型、千卡规模的计算效率提升到54%。

在多模型管理方面，多模纳管平台MModel支持逾10个业界主流的开源大模型和元脑生态大模型，并且支持自动化的对比评测和人工评测，模型评测效率提升100%。

这种多层次、工程化、自动化的全栈服务模式有望形成示范效应，带动Al Infra迈上更高台阶。

构建Al Infra生态系统任重道远

在人工智能通用化大爆发的窗口期，Al Infra发挥的连接与润滑作用举足轻重，其生态体系的构建对整个AI产业的走向将产生深远影响。

令人欣喜的是，在2023人工智能计算大会“AI Infra技术创新”论坛上，来自大模型微调框架、训练和推理以及社区建设等领域的优秀代表齐聚一堂，分别从不同维度提供产品与解决方案，为Al Infra生态系统的健康成长添砖加瓦。

如何构建高效、易用的分布式训练框架，有效克服算力瓶颈，是Al Infra领域的重大课题。潞晨科技牵头研发的Colossal-AI在大规模分布式计算优化方面处于业界领先水平。据潞晨科技创始人兼董事长尤洋透露，Colossal-AI可以最大限度帮助企业级AI大模型降本增效，涉及数据、张量、流水线的N维并行系统拥有巨大的发展潜力。

伴随开源大模型的迭代进化，一系列面向大模型微调需求的开发框架也不断涌现。LLaMA-Factory即是其中的典型代表，以低代码大模型开发框架赋能各个领域定制GPT。零隙智能首席技术官郑耀威从模型兼容性、性能、稳定性优化和数据兼容性、利用率、性能优化等角度，系统性地阐释了LLaMA-Factory的突出价值，帮助大模型开发者少走弯路。

大模型开发与训练的提效降本固然重要，但通过推理和部署环节的优化降低大模型的使用门槛亦不容忽视。清昴智能联合兼COO姚航介绍了公司自研的自动机器学习算法和优化系统，通过打造面向基础模型的自动优化工具链MLGuider，有助于实现模型与芯片的最佳适配并降低 AI使用和落地成本。无问芯穹(Infinigence Al)商务副总裁李枫讲解了构建从算法到芯片、从芯片集群到模型，再从模型到应用的三阶段“MxN”中间层具体方案，为实现大模型落地的极致能效提供了解决之道。

站在Al Infra生态系统持续进化的视角，建立开放、中立的开源社区至关重要。始智AI创始人兼CEO刘道全表示，其创建的wisemodel.cn开源社区秉承“中立、开放、共建、共创、合作”五项基本原则，汇聚AI开源模型、数据集、软件等资源，促进形成政产学研广泛合作、共建共赢的新生态。

放眼未来，人工智能重塑千行百业的进程刚拉开帷幕，Al Infra铺就的厚雪长坡有助于这个超级赛道行稳致远。今年，数据基础设施已在顶层设计中“独立门户”，人工智能基础设施战略地位的跃迁亦不遥远。

世良情感网

大模型时代AIInfra夯实中间层：人工智能“三明治”架构锋芒初露

创见科技未来