摘 要:云计算不仅是一种商业模式,更加是软硬件技术集大成者,通过基础设施软硬件服务整合、资源高度集约,以更加灵活、可扩展的方式支持数字化业务的变革和创新。基于云计算市场趋势和业务需求的迭代更新,提出了下一代云计算基础设施架构,包括分布式的云网资源、通智融合的软硬件基础设施及异构管理及协同调度平台,并通过介绍各组件功能范围和关键要素,引出下一代云计算高效能、广分布和超大规模等特性。由于云计算新型基础设施层是下一代云计算技术创新的热点,从算力、运力和存力 3 方面分别介绍了云基础设施软硬件资源的关键技术,并分析了平台层的资源纳管和协同调度技术,最后对下一代云计算基础设施相关技术进行了展望。
云计算市场的强劲需求驱动技术破局创新。面对日益增长的业务与市场需求,下一代云计算基础设施应运而生,其架构设计独具匠心,核心特征凸显高效能。关键技术涵盖以RISC-V为核心的智能异构算力技术,实现全面互联的新型网络技术,以及以数据为重心的先进存储技术。
与此同时,下一代云计算平台亦聚焦关键技术突破:跨类型、跨架构资源的一体化纳管,及面向业务感知的智能化协同调度机制,全面提升云计算服务效能。在创新驱动下,新一代云计算正以前沿科技塑造未来,赋能数字化转型之路。
云计算从诞生以来就是一种将计算、存储和网络资源以服务的形式对外提供的商业模式,是信息技术发展和服务模式创新的集中体现,得到客户和市场的高度认可。云计算已经成为数字经济发展不可或缺的基础设施,承载的应用包括传统互联网和移动互联网应用,涉及政府、交通等千行百业。
云计算不仅是传统通用计算应用的数字化转型,而且包括智能计算等新型应用类型,特别是 AI 大模型的出现,对云服务能力提出了更高的要求。目前,计算机体系结构进入发展的黄金十年 ,体系结构的创新对云计算技术创新的影响正在显现,在多重因素驱动下,云计算的基础设施在架构、资源和管理等方面必将迎来一场新的技术革命。
1云计算需求推动技术革新
云计算技术在信息化时代的浪潮中不断演进,市场与业务需求双向驱动。云计算市场规模稳健攀升,竞争格局日益激烈,巨头企业引领加速发展态势。业务层面,从传统通用模式向通智网融合的多元新型业务转变,催生云计算发展的新需求潮流。
1.1 云计算市场需求
从市场发展看,企业上云成为不可逆转的趋势。2023 年 7 月 6 日,国际数据公司(International Data Corporation,IDC)发布的《全球公共云服务半年度跟踪报告》显示,2022 年全球公共云服务市场收入总计达到 5 458 亿美元,比 2021 年猛增 22.9%。根据 Gartner 的预测,2023 年全球用户在公共云服务上的支出预计将增长 20.7%,总计将达到 5 918亿美元。
从市场格局来看,云计算领域的国际竞争加剧,中美差距正逐渐拉大,亚马逊 AWS、微软云Azure 保持高速发展态势,市场份额占全球一半,谷歌云 2022 年所占的市场份额为 6.1%,超过了阿里云的 5.2%,取代阿里云成为全球第三大云厂商。
1.2 云计算业务需求
从业务发展来看,通算业务数量激增,智算、超算业务异军突起,网算业务特色发展 ,多元业务融合推动新型业务模式的出现,为云计算的计算规模、存储容量、网络连接、服务模式等方面带来新的需求。以工业互联网、元宇宙为代表的新型业务场景融合通算、智算、网算多元业务,具有通算实时处理、智算推理决策、云网融合生态构建多方位需求;政策引领企业深度上云用云,赋能传统企业数字化转型升级,企业数字化转型要求云基础设施具有快速响应、高可用性、高扩展性等特性;
大模型推动智算业务高速发展,需要处理海量数据、大规模的参数训练,对算力、存储、网络等基础设施高性能、大容量、低带宽的需求日益增长;主流云商、运营商持续推动网络全面上云,催生云计算基础设施向通信行业深度定制化升级,需在基础设施层面彻底打破云和网的技术边界,构筑统一云网资源。
2下一代云计算基础设施架构与特征
新一代云计算基础设施正引领体系化技术创新,整合异构设施实现统一高效管控,并驱动服务升级,构筑起智能化产业的数字化新天地。顺应云计算业务迭代需求,这一革新性架构展现出了高性能、广泛分布和超大规模的独特优势。
2.1 体系架构
下一代云计算基础设施架构以分布式多云为核心,构建“一云多算”融合底座,依托异构资源统一管理、分布式任务协同框架,打造 AI 贯穿的新型服务体系,支撑以通算、智算、超算、网络融合业务的一体化承载,实现全链路业务的可用性保障。在总体架构上,保留传统云架构的分层体系;
在云网资源建设上,强调多种类型资源池的分布式优化布局;在软、硬件资源层强调多样性,进一步划分为以 CPU 为主的通算基础设施和以 GPU 等 AI 加速芯片为主的智算基础设施。分布式云平台对多维异构资源进行统一纳管,并实现任务高效协同调度。在基础设施架构之上,云服务形态呈现通用化和智能化发展趋势,承载多元业务类型,提供丰富的产业数字化能力。下一代云计算基础设施架构如图 1所示。
图 1 下一代云计算基础设施架构
(1)分布式云网资源。
云资源池呈现分布式、多云、全域部署模式,以云为中心构建全国一张网。以地理空间划分,实现从中心、区域到边缘 3 层级覆盖能力 。分布式云网资源池如图 2 所示,中心云资源池部署在资源集中的热点区域,向超大规模集约化发展;区域云资源池满足热点业务,具有一定规模,同时兼具时延优势;边缘云资源池可建设在更靠近用户和数据生产源头的网络边缘,主要包括小型化云节点,解决用户侧边缘的定制化需求。
多方云资源池混合部署,加强多云商资源池互联互通且互为增强,以算力资源交易的形式提供高效、去中心化、实时便捷的资源供给,实现全域基础设施能力覆盖。入云网络应具备高速泛在、天地一体的全连接能力 。除了网络和专线等基础接入能力,还应具备“5G+ 千兆光宽 +WiFi 6”的三千兆接入能力及协同卫星网络打造天地一体的差异化服务的能力。云间网络应具备高带宽、高质量特性,引入确定性网络、全光网络等技术,实现中心云与区域云、区域云与边缘云、边缘云与边缘云间的按需、可靠的高速互联。
图 2 分布式云网资源池
(2)通智融合基础设施。
通用计算基础设施主要指基于 CPU 芯片的服务器,在中心侧和边缘侧分布式部署,由全域覆盖的入云 / 云间网络拉通业务访问和数据获取,主要实现通用计算业务的资源供给。通用计算基础设施还包括以实现网络云化业务为代表的某些能力定制化增强的基础设施,提升不同业务场景下的基础设施的性能。智算基础设施基于 GPU、FPGA[9]、ASIC 等芯片,为 AI 应用提供所需算力服务、数据服务、算法服务的公共算力新型基础设施 ,通常表现为大规模、高性能、高可靠性的智算集群。使用大算力芯片及大容量内存等能力支撑模型训练、推理等计算密集型任务;
使用高速、大容量的存储设备及存储技术,基于分布式架构实现高可用性和可扩展性。围绕远程直接内存访问(Remote Direct Memory Access,RDMA)构建高性能网络体系,其组网架构具备大规模、跳数最优的网络连接能力。基于端网协同和软硬融合构建高带宽、低延迟的无损网络。
(3)全局化管理调度。
多维度、异构资源统一管理,面向业务进行任务与基础设施资源的高效适配。通过对不同技术架构搭建的计算资源、网络资源和存储资源进行抽象,并将当前各类公有云、私有云平台的不同类型资源整合到统一的管理框架,实现全局异构资源统一纳管,能更好地应对业务负载对资源的多样化需求,发挥各类资源的特性和优势,提高整个系统的效能。
面向大规模业务进行功能模块解耦,子任务间通过网络交互完成业务处理,分布式任务协同通过将上层子任务需求与底层基础设施资源进行适配,实现任务的精准实时、稳定高效调度和编排。任务调度策略根据资源管理层提供的资源状态信息和性能指标进行定制,推进任务需求动态调整资源的分配和使用,提升面向超大规模业务的资源管理调度能力。
(4)智能化服务模式。
上层以云服务形式承载包括数字化业务、智算业务、超算业务和网络业务在内的多元解决方案,将 AI 融入基础设施即服务(Infrastructure as a Service,IaaS)、平台即服务(Platform as a Service,PaaS)、软件即服务(Software as a Service,SaaS)层,实现数字化业务的全面升级 。
扩展新应用场景下的模型即服务(Model as a Service,MaaS)新型服务模式,打通数据平台、深度学习训练框架、推理部署引擎和模型生产平台,实现从数据存储、标注到模型训练、生产、部署、测试的全链路、批量化过程。
2.2 核心特征
下一代云计算基础设施的核心特征为广分布、高效能和超大规模。
(1)广分布的云网资源。
凭借创新的分布式云架构,实现从服务商至用户本地、再到生产现场的近乎全域基础设施无缝覆盖,提供全面稳定的高可靠网络保障,构筑空天地海一体化的广泛连接。无论地理位置如何变化,资源池服务始终如一,一键即可获取随时随地的云网融合资源供给。
(2)高效能的硬件资源供给。
绿色先进多元算力驱动,性能跃升十倍以上,革新计算极限。构筑集约高效的新型存储体系,满足数字化时代海量存储需求。创新系统级断网协同机制,打造十万节点低耗高速互联网络,引领网络技术前沿。
(3)超大规模管理调度。
数据管控规模不断攀升,现已实现PB级多模态大数据的精细化调度管理,从容应对复杂业务逻辑与频繁交互需求,模块化设计确保了对繁琐业务场景的高效调度。海量数据与尖端算法强力驱动云平台,实现百E级超强算力的统一、精密管控。
3下一代云计算基础设施关键技术
下一代云计算基础设施,聚焦算力、存储与网络核心技术,引领系统向高效能升级。搭载AI芯片,采用RISC-V指令集统一多元异构架构,为云服务提供坚实算力基础;响应大规模集群通信需求,构筑基于RDMA的高性能智算中心网络,实现高带宽、低时延及卓越可靠性;面对海量数据挑战,创新引入新型存储技术,赋能高速读写、高并发处理与超低时延,共同构建出效能卓群的硬件资源平台。
3.1 以 RISC-V 为导向的通智异构算力技术
智能化时代,AI 在各行业领域持续深化,应用场景也不断丰富,以科学计算和大模型为例,在传统的地震波模拟的科学计算场景下,对数值精度的要求极高,AI 大模型训练则适用于数值范围大、但数值精度要求相对较低的 16 位浮点类型,而 AI 大模型推理由于更关注推理速度等性能,则可以在更低的数值精度下进行处理。
因此,愈加复杂多样的计算场景,为算力基础设施提出了多元化挑战。不同数值精度的计算需求,对于计算芯片架构要求也具有一定差异性。此外,摩尔定律带来的计算性能提升空间有限,通用 CPU 性能的持续提升呈现整体性加速放缓趋势,而 AI 加速应用带来计算量指数增长态势,远超摩尔定律带来的算力提升速度。
下一代算力将从以 CPU 为主的通用计算基础设施逐渐向 CPU、GPU、XPU 等异构算力融合方向发展,突破了传统计算芯片发展的惯性思维,不再强调系统中某一种类型计算芯片的核心地位,而是从系统层面优化性能、性价比等核心指标,体现综合的算力供给性能优势。现阶段 RISC-V 指令集由于其开源和可扩展特性,已被广泛用于开发 CPU、GPU 等通算、智算芯片,可有效解决当前 CPU 和GPU 因基于不同的指令集架构,造成的生态复杂、开发运维难度高等问题。
下一步 RISC-V 将通算和智算基础设施在指令集层面进行统一,实现编程接口的统一,从而实现黄金十年的终极目标:采用统一指令集来实现 DSA 芯片和通用芯片,为上述应用开发提供统一编译环境和开发语言,支持 RISC-V指令集对“XPU”的多核异构融合,构建高性能 AI算力集群和高效能的算力底座。
3.2 面向全域互联的新型网络技术
海量数据流的产生和多元化的应用场景为智算产业带来了新的挑战,推动了算力基础设施服务器级单点处理向互联协作的演进,将同架构 / 跨架构、同地域 / 跨地域的算力节点大规模组网,形成下一代全域互联的新型网络架构。为了实现这些需求,智算中心内节点数量将大幅增长,从现在的十万台服务器增长到百万级互联,使得智算中心组网面临超大规模冲击。
以大模型为代表的智算业务2025 年将向百万亿参数模型演进,存储介质 SSD的访问性能较传统 HDD 已有了百倍提升,在存储介质数据读取时间大幅降低的情况下,网络时延占比从原来的小于 5% 上升到 65%,意味着存储介质有一半以上的时间是空闲通信等待。如何降低通信时延,提升网络吞吐也是智算中心网络的关键挑战之一。
下一代数据中心网络将具备超高性能、超高可靠性及超大规模连接能力。现阶段新建智能计算中心网络通常使用 RDMA 网络协议来减少传输时延,提升网络吞吐,并逐步在规模、带宽、稳定性、时延 / 抖动及自动化能力方面不断优化提升。下一步基于 RDMA 的高性能智算中心网络体系,需要不断推进网络拓扑、网络设备、网络协议等方面的创新,加强在拥塞控制算法、软硬协同加速及 QP连接扩展等方面的能力突破,结合全光网络发展趋势,从而满足各类业务高并发、大带宽、高通信效率需求。
3.3 以数据为中心的新型存储技术
在智算业务浪潮的驱动下,数据成为第五大生产要素,围绕数据构建的基座必然发生变革,存力觉醒拉开新的篇章。在芯片层面,冯·诺依曼架构下计算和存储分离,计算单元从内存中读取数据,计算完成后返回内存,然而随着 AI 大模型的发展,这种架构中存储器的数据访问速度跟不上计算单元的数据处理速度,阻碍性能提升的“存储墙”问题严重。在集群层面,传统存算融合架构面临数据保存周期与服务器更新周期不匹配、性能可靠与资源利用率难以兼得、新型分布式应用的极简高效共享存储诉求和以 CPU 为中心的服务器架构导致数据密集型应用效率低下等问题,下一代云计算底座在存储容量利用、存力效率等方面面临挑战。
下一代以数据为中心的存储需要为云内海量数据分布式通信提供超高性能的读写支持和超大规模的连接能力。在智算时代崭新的发展阶段,数据存储堪称 AI 训练和推理应用的基石——既是加速多模态数据智能训练的核心平台,也是支撑海量终端智慧应用的基础设施。
单芯片层面存储朝着存算一体方向演进,计算越来越靠近存储,减少不必要的数据搬运,直接存储单元参与逻辑计算提升算力,在单位面积不变的情况下规模化增加计算核心数,通过架构创新提供综合性能全面兼顾的芯片及板卡,为广泛的边缘 AI 业务提供服务。集群层面,随着 RDMA、CXL、NUVMe SSD 等新型硬件技术的发展,需要构建新型存算分离架构,以确保云和网、不同云存储域服务能够兼顾资源利用率、可靠性等核心诉求,彻底实现存算解耦,组建彼此相互独立的硬件资源池,实现细粒度的处理分工,使数据处理等 CPU 不擅长的任务被专用加速器替代,以实现能效比最优的组合。
4下一代云计算平台关键技术
新一代云计算平台采用创新纳管、池化与调度技术,高效解决大规模算力获取成本高昂、难度大、资源利用率低的痛点,精准赋能业务发展,实现超大规模基础设施资源的智能协同调度。
4.1 跨类型跨架构的资源统一纳管
统一纳管跨类型、跨架构资源,突破单机调度边界,攻克底层硬件异构带来的流程对接、芯片互连及软件适配难题,打造高效协调、一体化的算力资源池。这一革新简化资源配置与管理,降低成本支出,灵活应对用户多样化的资源需求,实现快速响应。关键技术涵盖算网存资源抽象化、异构资源池构建、内存一致性池化以及轻量级虚拟化技术,全面提升资源利用率与服务效能。
(1)算网存资源抽象。
算网存资源抽象技术,整合计算、存储与网络资源,通过深度抽象化处理,消除了物理特性和资源类型的限制,实现跨应用场景的统一业务视角管理。用户可聚焦业务核心,便捷调整资源配置,包括运用统一资源API、资源模型转换、抽象资源库及异构资源适配等工具,从而构建起灵活高效的多元产业生态。这一创新技术赋能各行业,实现资源协同编排与共享。
(2)异构资源池化。
优化后:掌握异构资源适配技术,涵盖硬件设备的智能发现、计算与内存资源双维度虚拟化。实现异构资源池自动纳管与全生命周期管理,运用多层次智能调度机制灵活调配近端和远端资源池,确保多租户多任务间资源高效隔离。同时,无缝支持跨架构数据传输与转换,共筑强大而多元的算力产业生态。
(3)内存一致性池化。
通过硬件内存一致性协议,确保多节点间内存数据访问的一致性,并运用虚拟化层软件协议打造共享内存集合,高效实现内存分配与管理。提供迅捷的内存分配与回收机制,最大化提升资源利用率。
(4)轻量级虚拟化。
针对传统虚拟化技术在边缘计算、云原生Serverless及网络云化场景的局限性,我们深入研究并优化容器、安全容器、轻量级虚拟机及应用程序级沙箱等前沿技术。精准定制虚拟化层以满足各类场景对安全性和性能的独特需求,确保应用实现超快速启动和高效能的高密度部署。
4.2 面向业务感知的智能协同调度
智能协同调度,作为衔接多类型上层应用与底层物理设备的关键技术,专注于满足各类应用对资源的多元化需求,从而助力上层应用更高效便捷地驾驭底层资源,实现效能升级。核心技术聚焦于全局算力资源调度、动态自适应智能规划、云网切片端到端一体化调度,打造业务感知驱动的卓越调度方案。
(1)算力资源全局调度。
分布式云引领算力资源全局智能调度与协同,突破性实现跨域融合,高效布局云、边、端三侧资源并达成智能协作。这一革新已孕育出基于云-边-端架构的分布式操作系统,针对业务需求无缝链接异地、多层级算力资源,具备统一管理、智能化调度及全局优化的强大功能。
(2)自适应智能规划和调度策略。
由于百万级大规模异构资源中存在异构资源间的交互程度不高,匹配复杂度高,调整后均衡性难以保证,业务特性考虑不足等问题,因此资源的供给方式从提供固定规格计算资源的形式走向面向具体业务场景灵活调整资源使用量的方式。多种基于 AI 模型乃至大模型的学习方法可基于训练模型针对业务需求设计和生成自适应智能规划和调度策略,以提升大规模资源的调度优越性。
针对业务特性研究资源配额、共享超分、负载均衡等资源调度策略,实现面向业务服务等级协议(Service Level Agreement,SLA)、 服 务 等 级 目 标(Service Level Objective,SLO)、 服 务 等 级 指 标(Services Level Indicator,SLI)的多级调度、拓扑感知调度、在离线业务混布等,从而最大化资源利用率。
(3)云网切片端到端一体化调度。
云网切片,融合网络切片技术与云资源弹性优势,针对业务特定网络属性和动态流量流向,实时调配与优化云、网资源,实现一体化协同管理与调度。通过端到端统一管控、灵活隔离预留、自动化构建优化云网连接,提供按需自动化的云网服务能力,达成高效、敏捷的资源利用。
5结 语
驱动市场革新与产业升级,云计算技术正迈向崭新的时代,力图构建面向未来的云体系架构。新一代云计算承载着通算、智算、超算、网算多元业务形态,依托于基础设施、平台、服务、运维全链条架构创新,展现出高效能、广分布、超大规模、智能敏捷和智能自治的鲜明特性。以通智异构算力融合、全域互联新型网络、革新存储技术、资源一体化管控及智能协同调度为核心技术驱动力,有力推动云计算向更高阶演进。
-对此,您有什么看法见解?-
-欢迎在评论区留言探讨和分享。-