阿里云容器服务，智算时代云原生操作系统

本文整理自2024云栖大会阿里巴巴研究员、阿里云容器服务负责人易立演讲

2024年云栖大会，是我个人第十次分享阿里云容器产品技术的进展。非常荣幸能在云原生技术蓬勃发展的这个时代，帮助到的客户与开发者们利用容器技术在云端构建云原生的基础设施、研发流程与应用架构。在智算时代，我们从心出发！

今年是Kubernetes十周年，在这10年间。我们已经看到其成长为云原生操作系统，向下高效调度多种算力资源，屏蔽基础设施差异，向上提供统一编程接口，支持多样化工作负载。

阿里云容器服务产品已经覆盖了从公共云、边缘云、到本地数据中心的各个场景。让所有需要云能力的地方，都有统一的容器基础设施。

容器技术，不但已经助力千行百业众多的客户互联网架构升级。今天容器服务也在帮助越来越多的客户实现数字化、智能化创新。容器技术已经成成为了自动驾驶、AI for Sciense，大语言模型训练等创新应用的技术基础设施。

在这个夏天，阿里云成功支撑了巴黎奥运会的赛事服务和全球转播。阿里云容器服务，助力众多赛事系统以云原生的方式在云端稳健、高效运行。

奥运直播中“子弹时间”特效，它捕捉了运动的惊艳瞬间，用全景展示了力量与美的结合的细节。其背后的多镜头回放系统，通过收集多角度赛场镜头数据，使用云端的ACK GPU集群进行实时的空间重建与3D渲染，能在数秒内完成处理并与赛事直播融合。让体育赛事获得全新的视觉体验。

奥运官网，基于云端ACK集群提供跨地域、跨可用区的高可用架构，在全球范围内提供了稳定、可靠的服务。

在今年9月，权威咨询机构Gartner发布的容器管理魔力象限中，由于在公共云、专有云、混合云等完善的容器产品体系，阿里云蝉联全球领导者，亚洲唯一。

去年我们发布了ACS容器算力产品，为ACK集群和ACS Serverless K8s集群，提供统一支持通用计算与加速计算的Serverless容器新算力。今年迎来了它的重磅升级：它具备如下的能力

· 极致弹性: 基于用户负载特征的预调度优化，大规模扩容速度从7K Pod/min提升至10K Pod/min。

· 动态柔性: 在应用运行过程中，所需CPU资源量存在波动性，比如Java应用启动过程中需要更多的CPU资源，但是如果为业务峰值分配资源，就会造成不可避免的浪费。ACS 支持CPU资源的秒级按需热变配，可以轻松实现应用启动加速。

· 普惠易用：ACS算力有更细粒度的规格，可以更加贴合应用需求分配资源，降低资源浪费。按天承诺节省计划(Saving Plan)，非常适合每天潮汐业务通过弹性降本，在典型场景中，算力成本下降55%。

随着计算弹性的增强，网络与存储也需要进一步提升弹性能力。

当前，AI和大数据业务的发展非常迅速，对网络延迟和吞吐的要求越来越高，传统TCP/IP网络已经无法满足相关场景的需求。RDMA解决了这些痛点问题。相对于TCP/IP，RDMA实现了零拷贝、内核旁路等特性，避免了拷贝、频繁的上下文切换等开销，相较于TCP/IP的通信，达到了低延迟、高吞吐以及低CPU占用。然而，传统RDMA需要专用的硬件设备，成本高昂，导致RDMA技术一直无法普及。

阿里云基于第四代神龙CIPU，自研了eRDMA技术，让用户可以直接在ECS上享受RDMA网络带来的优势，不需要任何额外的成本。

ACK深度集成了eRDMA的能力，基于NCCL、MPI的应用可以无缝迁移到eRDMA上运行，传统应用也可以通过SMC-R和NetACC实现自动加速，无需修改代码针对RDMA适配。根据我们的测试，基于SMC-R的Redis服务，性能相比TCP提升了10% ~ 30%。ACK开源的网络监控组件kubeskoop中内置了eRDMA的可观测能力，通过监控大盘可以清晰地看到节点上eRDMA的各项监控指标。

随着Kubernetes技术的不断成熟，越来越多的数据密集型服务工作负载正加速向云原生环境迁移。不同于无状态（Stateless）的微服务应用，这些负载对存储解决方案提出了更多的需求。

尤其是在大数据处理与人工智能领域，高效的临时数据访问成为了重要的场景。无论是分布式的数据缓存、大数据处理中的中间结果shuffle，还是海量日志分析处理，都对存储系统的吞吐性能提出了极高的挑战。

弹性临时盘是针对临时数据存储而设计的一种新型块存储产品，它不仅具备本地盘的超高吞吐性能，还融合了云盘的弹性扩展优势，与云盘相比具备更优的性价比。让鱼和熊掌可以兼得。

您可以在ACK集群中通过PVC/PV的方式使用，也可以作为数据盘挂载到ECS节点，满足您的多样化需求。

在对数据高可用性有严苛要求的场景中，比如数据库与中间件服务，我们往往采取的是在不同的可用区内部署多个实例，并在应用层面实现数据的同步复制，以此来保障系统的稳定运行。然而，这一做法同时也带来了数据一致性的挑战以及运维复杂度的提升。

跨可用区云盘是阿里云推出的同城冗余块存储，提高了数据可用性和灾难恢复能力，可以帮助用户实现更加简化的数据高可用架构。

技术初创公司AutoMQ，基于Regional ESSD云盘，实现云原生消息队列数据跨可用区高可用存储，通过Nvme Reservation和Power Fencing等技术保证数据的一致性，可以实现在可用区故障时秒级故障切换，有效保障了业务连续性。

AGI的实现不仅需要海量的算力，也需要对算力的高效调度和利用。Gartner分析师预测 - “到2027年，超过75%的AI部署将使用容器技术作为底层计算环境”

我们结合多年服务客户和云产品AI平台实践经验，沉淀出Cloud native AI参考架构，致力于推动云原生和AI两个领域的系统化融合。

云原生AI参考架构聚焦：几个层次。

· 利用云原生技术充分发挥AI基础设施的高性能、大规模优势，包括对GPU的轻量虚拟化，并行文件存储CPFS，高性能网络RDMA，以及高性能智算集群 - 灵骏等的支持。

· 通过高效AI资源调度和任务编排，协同优化AI应用性能和资源利用率，同时让AI系统具备更好的弹性与稳定性。

· 支持开放生态和可扩展架构，广泛集成AI云服务、开源AI生态，支持ISV应用框架，比如Nvidia NIM。支持企业构建高效的云原生AI平台，加速AI创新落地。

下面我将介绍几个关键能力增强：

GPU集群的效率与稳定，很大程度上影响了AI任务执行时间与成本。在Meta发布的报告中指出，在Llama3.1训练的万卡集群中，平均每3小时发生一次故障。GPU故障的快速定位，快速自愈，和性能瓶颈分析已经成为实现分布式模型训练中重要的工程挑战。

ACK持续优化GPU可观测性和故障自动处理能力。GPU监控大盘默认提供40余种GPU相关监控指标。基于ebpf技术，实现轻量级GPU实时profiling，可以按需开启追踪分析AI任务性能变化。

ACK加强了对GPU故障的自动化发现与隔离，可以按需自动重新调度AI任务。实现典型GPU故障的自发现、自恢复，有效提升K8s平台GPU故障处理效率50%以上。

大语言模型庞大的参数量导致推理服务的冷启动速度非常缓慢，严重影响了模型的响应能力和弹性。以Qwen1.5-72B-Chat为例，其模型参数文件总大小约为134.6 GiB，直接从远程对象存储拉取模型时，端到端启动耗时高达635秒，超过10分钟，这在弹性扩展场景中是不可接受的。

为了解决这一问题，我们通过结合镜像加速套件与 Fluid技术，采用无侵入的手段，大幅提升模型启动速度：

1. 镜像启动加速：支持按需镜像加载，同时通过P2P技术提升大规模分发性能，实现GPU应用镜像下载提速80%以上。

2. Fluid在Kubernetes集群内部建立分布式缓存，大幅减少模型拉取时的网络延迟；支持缓存的弹性伸缩，满足数据吞吐与成本诉求；通过数据亲和性调度，减少数据传输；支持模型数据预热与异步预读，进一步提升模型加载速度。可以将Qwen 72B模型启动时间从原先的635秒缩短到40秒。

通过这些优化手段，可以让启动延迟降低85%以上，极大地提升了大语言模型推理服务的弹性和响应速度。

智算、超算、大数据应用云原生一体化已成业界趋势。越来越多的客户希望基于Kubernetes实现对底层资源的统一管理，实现对AI、HPC、大数据应用的统一支持，简化运维管理，提升资源效率。

今年我们发布了对Ray和Slurm on ACK的支持，可以帮助用户在ACK集群统一调度各类任务，具备更好的弹性、安全与可观测性。所有这些计算框架都可以通过应用目录一键获得。

我们也在与社区一起推动更多的计算类负载云原生化。欢迎大家一起共建发展。

在资源弹性方面，去年ACK发布了即时弹性节点池，用来解决弹性场景下启动效率、确定性以及易用性的问题。即时弹性得到了进一步完善：

· 在弹性效率上有了进一步提升，能够在算力缺口时35s内节点就绪。

· 通过与ECS库存感知能力，实现了99.9%的弹性扩容成功率。

· 即时弹性节点池与Cluster Autoscaler选择固定资源配置的规格不同。即时弹性节点池支持简化的机器规格配置，根据资源缺口、topology需求和库存情况智能筛选符合需求ECS规格，并提供扩展机制允许用户自定义规格筛选策略。平衡客户在弹性成本，成功率与确定性等多方面的诉求。

即时弹性节点池帮助汇量科技自动筛选ECS规格大幅降低运维复杂性；弹性效率加速保障大规模集群下批量节点扩容，节点就绪耗时35s无衰减，从容应对业务高峰期弹性扩容。

应用弹性是很多客户对K8s的核心诉求，但是用好却非易事。开发者需要对应用负载有很好的理解，凭借历史经验，才能为每个应用定制合理的弹性规则。然而随着业务的不断变化，也需要进行针对性的调整。

我们近期将发布弹性“辅助驾驶能力”借助机器学习算法持续对应用容量，变化趋势进行分析预测，为应用生成资源画像。基于这个画像，我们可以智能化地生成HPA, CronHPA, VPA弹性规则和优化参数。它能提升我们的弹性响应速度高达25%，并平均减少20%的资源浪费。

容器服务团队也在持续优化可信赖的集群托管体验。

在K8s控制面，我们增强了K8s集群版本自动升级能力，用户可以选择Stable，Rapid等不同的升级渠道，进一步降低了运维复杂性。同时，我们提供了对废弃K8s API版本的自动化检测，避免升级导致的稳定性风险。

同时，在K8s数据面，进一步增强了托管节点池自治运维能力。通过联动ECS主动运维事件，在底层资源进行停机运维时，提前进行节点排水与应用迁移。进一步降低业务中断风险。

容器服务托管集群可以有效减少集群运维管理耗时80%以上，让您更专注于业务的创新与突破。

复杂性是阻碍K8s企业落地的关键挑战，去年我们发布了基于领域大模型及专家知识库结合的ACK AI助手，目的是让它成为您的贴身K8s专家，可以用更加直观的交互方式简化集群运维与管理。在过去一年，我们持续拓展AI助手的能力。

AI助手能够对集群的稳定、安全、性能、成本等进行全方位的智能体验，在事前发现并预防风险，防患于未然，自动异常检测率>85%。

在智能诊断上，进一步增强集群资源、任务等的异常诊断及优化支持，能够提供异常根因分析及修复建议, 异常诊断根因定位率>70%。

另外AI助手能够对安全风险进行智能分析及安全治理策略的自动辅助生成，减少60%以上的安全修复治理时间。

Gartner预测，到2025年全球45%的企业机构将遭遇软件供应链攻击，相比2021年增加了3倍。面对软件供应链日益严峻的安全形势，阿里云容器产品实现了完善的供应链风险分析和防御机制。

今年，ACR支持了OCI社区1.1版本的镜像的分发规范，标志着客户可以通过更标准的方式统一管理镜像、AI模型，和其数字签名，同时结合ACK的自动化策略治理能力，帮助企业客户实现通用的制品完整性验证方案。

基于安全左移的原则，今年我们还提供了针对镜像软件物料清单SBOM的全周期洞察，帮助企业客户在供应链的早期阶段提前发现风险，并通过智能化的手段，提升了容器构建和配置安全风险的诊断与修复建议。

我们的客户深势科技，基于容器服务的策略治理能力，实现了日均万次的应用部署时刻容器镜像和配置安全风险的主动防御和安全审计。

分布式云已经成为常态，用户的应用需要根据安全、合规、业务连续性和访问时延等不同需求，将应用部署在公共云、边缘云和IDC。

阿里云容器服务提供了完善的分布式云产品能力。

· ACK注册集群可以纳管IDC自建集群，支持云上弹性与统一运维管理，解决IDC资源焦虑，降低综合成本。

· ACK边缘集群可以接入并管理海量分散的服务器与IoT设备，并提供和云上ACK集群一致的运维体验。

· ACK One多集群舰队，提供一个统一控制面管理多个K8s集群，提供应用分发，任务调度，流量管理，安全治理等能力。

极氪汽车使用ACK One统一管理云上云下多个K8s集群，提升了整体安全水位和业务连续性，减少25%的资源用量，运维效率提高80%。

ACK One Fleet支持分布式多集群应用交付，在支持GitOps的多集群应用交付基础上，我们新增了跨集群资源分发，支持对现有K8s 应用和Helmchat 做少量修改就可以在多个集群间部署。进一步简化了现有应用跨集群跨地域部署，同时发布过程支持灵活灰度控制，提高发布效率与稳定性。

自动驾驶仿真、大模型训练与推理等场景对计算资源的巨大需求量，正在突破单个云region或者IDC机房的服务能力上限。

ACK One Fleet提供实现了跨集群任务统一调度，可以根据资源库存，数据亲和性、成本等维度，选择满足条件的集群执行计算任务。同时，对数据不在本地域的集群，可以通过Fluid实现对数据的缓存和预取，提升计算任务·的执行效率。

阿里云服务网格ASM继续增强了对跨云多集群模式的支持。通过ASM跨集群代理，有效解决了多集群网络地址冲突等问题，实现了多个K8s集群之间的应用的互联互通。

其中，北京合思作为国内领先的财务数智化服务平台，基于ASM实现了跨集群安全互联、业务流量入口的统一安全管理以及跨集群故障转移等关键业务需求。在基于ASM的架构下，并在万级Pod规模下的服务网格，规则配置生效延迟减少了50%，带宽资源使用下降了90%。

为了进一步优化服务网格数据面性能，今年ASM推出了一系列升级：

为了简化服务网格的使用, 我们与阿里云网络团队共同推出了一种新型的Sidecarless模式, 即集中式代理Alibaba Cloud Mesh Gateway。相比社区 Ambient Mesh, Mesh Gateway模式下吞吐量提高了2.3倍, 大大降低了用户使用的成本。

此外，ASM基于软硬件协同优化进行了性能提升。基于eRDMA SMC-R (Shared Memory Communications over RDMA) 优化了Proxy间网络通信, 跨节点Pod间QPS提升20%; 基于eBPF的转发实现，同节点下Pod网络通信QPS提升10%; 此外, 基于Intel AVX指令集实现TLS加速,加解密处理效率提升200%。

威廉·吉布森有一句名言：“未来已至，只是分布不均”。使用云计算与云原生技术的开发者和用户都是先进生产力的代表，也必将成为AI时代的造风者。阿里云容器服务的目标是为打造云原生智算底座，助力大家加速AI业务创新。

阿里云容器团队诚招【开发&SRE】【产品经理】【PDSA】- 杭州、北京、深圳的岗位均可，欢迎大家帮助推荐。

/ END /

世良情感网

阿里云容器服务，智算时代云原生操作系统

科技梦想在奔跑