在黑暗中保有一束“光”，智利大停电带给云计算行业的启示录

作者 | 由仪

编辑 | 阿文

2025年2月25日15时16分，智利首都圣地亚哥，圣克里斯托瓦尔（圣母山）山顶的缆车突然定格在钴蓝色的天幕下。

圣母山是圣地亚哥的制高点，全城景色尽收眼底，但此时此刻，还未及从惊呼中镇定，他们发现缆车窗外的城市仿佛瞬间被寂静吞噬，公路上的车流纷纷亮起红色刹车灯，事后他们才知道，这是智利十多年来最大规模的一次电路故障。

智利北部500千伏的输电线缆猝然崩溃，电流脉冲如多米诺骨牌般沿着安第斯山脉向南奔逃，全国98%以上的人口陷入到大停电中，首都圣地亚哥及14个大区的基础设施瘫痪，当地政府随即宣布进入“灾难紧急状态”，实施宵禁并启动应急响应机制。

这场危机不仅暴露了传统能源系统的脆弱性，也意外成为全球云计算行业应对极端事件的“压力测试场”，在算力即生产力的时代，云数据中心的存续与政府、金融等公共服务紧密相连。

“不要浪费一场危机”，全球云计算行业在此次事件中收获的价值，远超常规演练的极限数据，如何通过技术架构创新、组织能力建设和全球化布局，构建新时代云计算的“数字韧性”，答案便在智利那座指示灯一直闪烁、服务器轰鸣从未停止的数据中心。

数字化如何实现“反脆弱”

《黑天鹅》的作者纳西姆·尼古拉斯·塔勒布，时隔几年之后写下了《反脆弱》，他认为，万事万物都对外呈现三种状态：脆弱态、强韧态、反脆弱态，反脆弱性是一个超越复原力和强韧性的概念。复原力只是事物抵御冲击，并在重创后复原的能力，而反脆弱性则进一步超越了复原力，让事物在压力下逆势生长、蒸蒸日上。

智力大停电再度印证了一件事，当数字化基建提供了前所未有的效率，一旦“黑天鹅事件”出现，越是重要的基础设施，受灾影响就越大，现实是，我们不可能预测所有的潜在风险因素，但我们又必须尽可能提高数字化的“反脆弱性”。

大停电中的云计算数据中心，亟需这种反脆弱性。当前云计算企业在基础设施的防护实践中，普遍将资源集中在“云内”风险管控上，例如数据中心的服务器硬件、虚拟化平台漏洞修复、运维人员的权限管控与误操作预防等。

随着企业上云进程的加速和业务复杂度的提升，在过去十年，云计算行业的运维水平有了很大程度的提高，而类似大停电这类极端事件给行业提了个醒，当云数据中心成为社会基础设施，仅关注云内防御已无法应对日益多样化的威胁场景，“云外”风险逐渐成为企业韧性体系的短板。

位于智利的华为云数据中心成为了数字化反脆弱的样本案例。中国某全球领先的智能摄像头解决方案提供商，其云存储服务部署于华为云智利节点，服务覆盖拉美地区超百万用户。

在智利发生区域性断电事故期间，依托高可用基础设施建设及标准化的运维体系支撑，仅智利断电区域用户受到短暂影响，其余地区99%以上用户业务保持正常运行，帮助该企业抵御65%+潜在中断风险。

这背后的反脆弱性，来自于华为云SRE（Site Reliability Engineer，站点可用性工程师）。

防之于未萌，治之于未乱

华为云SRE的使命就是让云服务稳定可靠，要实现这一目标，肯定不是一朝一夕的功力，华为云的理念是“防之于未萌，治之于未乱”，通过前瞻性设计、主动预防和动态治理，在潜在风险尚未形成破坏性影响时提前预防，确保系统在复杂环境中保持稳定性和反脆弱性。

就智利数据中心来看，云数据中心要保证客户业务平稳运行，至少要面对“三重挑战”，首先是在断电极端环境下，基础设施如何抗压。

构建高可用的基础设施架构是应对极端情况的关键方法。智利地震频发，其停电风险及停电时长显著高于其他国家。华为云智利站点在建设之初便采用了最高级别的质量标准，构建了由“市电+柴油发电机+不间断电源系统（UPS）+智能调度”组成的四层高可用保障架构，同时储备了3万升柴油，足以支持144小时的长时间发电需求。

当大停电发生，华为云通过智能能源管理系统动态调配备用电力，确保在故障情况下仍能提供电力供应，保证备用电源续航，为电力恢复争取关键窗口期，备电启用后，0损切换柴油发电机发电。

其次，完备的应急响应机制。在智利突然断电的瞬间，华为云资源监控平台系统自动触发警报，SRE团队在1分钟内迅速集结应急指挥室（Warroom-能够支撑运维、研发、运营联合作战，保障业务快速恢复而组建的会议），联合300多位跨国专家共同应对断电事故。

华为云拉美地域SRE责任人回忆道：“华为云经过了多次极端故障经验沉淀，Warroom机制是非常完善的。我当时正在和智利办公室进行会议，得知智利全国停电后，我立马把Warroom拉了起来，启动全量业务巡检，不能让客户业务出问题。”

华为还提供了全链路可观测能力，不仅能及时识别问题，支撑事故迅速响应，在事故发生后，也能够快速恢复业务提供支撑，通过多平台进行核心指标观测，为备电切换后机房、云资源、租户面提供全方位的指标监控。全量业务端到端巡检以及7×24h关键业务重点保障，保障业务的连续性和安全性，确保智利断电后紧急问题能够迅速得到解决。

最后，待到电力恢复，数据中心还有一重难关要挺过。由于智利国家电力恢复时间未知，若电力恢复，IoT设备会面临电源恢复后突发流量带来的性能冲击，需持续组织服务和业务巡检，对电力恢复后的OBS等业务浪涌准备应急预案，主动监控业务端到端流量变化，并深入一线机房做好巡查，全面监测指标稳定。考虑到所在区域市电的稳定性，在智利市的电力恢复之后，华为云额外进行了为期6小时的重点保障工作。

当圣地亚哥第一盏路灯重新亮起时，华为云的跨国作战指挥链已转入静默值守模式，华为云智利节点经历了激动人心的27小时的奋战。

通过电力0中断切换柴发、1min拉起Warroom响应、7×24h重保、持续监控和预警并完成业务端到端巡检，华为云在此次智利全国大停电事故中，确保了业务的连续运行，实现了零中断的保障，为客户提供了高质量的服务支持。

在黑暗中保有一束“光”

智利大停电不仅是一次技术压力测试，更是数字时代基础设施反脆弱的全球启示录。在刚刚过去的2024年，全球大型云计算厂商发生重大事故42+个，截至目前，华为云已维持590+天0重大事故，维持业界领先。

在此前2023年2月份的新加坡整岛市电异常中，机房遭受双路市电电压骤降，制冷系统重启后工作异常，机房内持续温升最高至60℃左右，造成不可控风险。华为云紧急启动Warroom进行高温重保，经过22+小时全链路重保，在其他云厂商机房大面积故障时，华为云机房温度得以恢复正常，最终实现业务0中断。

通过一系列极端事件应对的总结，华为云带给云计算行业的思考是，运维不是单纯的技术问题，也不是流程问题，而是一整套管理体系的塑造，如此才能保证现网质量预期确定、管理确定、实现确定，这也是云计算行业倡导的确定性运维的含义。

《有限与无限的游戏》告诉我们，有限的游戏，其目的在于赢得胜利；无限的游戏，却旨在让游戏永远进行下去，有限的游戏在边界内玩，无限的游戏玩的就是边界。

数据中心的稳定运行恰恰就是一场无限游戏，大停电再度拓展了游戏的边界，全球云厂商都要适应并学习新时代的反脆弱性，华为云经过多年的沉淀，总结出确定性运维“1+N”体系，旨在构建可防、可控、可治的运维管理体系。

确定性运维“1+N”体系的核心是——通过高质量的产品开发，严谨的运维流程和制度来降低故障的概率，同时也要有技术手段对可能发生的故障，将故障间隔、影响范围及故障恢复时间降到最低，要把数字化带来的“不确定性”通过运维变成“确定性”，不断达成更高的系统可用性，实现确定性的运维结果。

“1”指的是“管理体系”，涵盖组织、流程和工具三个方面。组织转型涉及企业内部人力资源的重新分配与布局，流程体系贯穿产品的整个生命周期，运维工具作为管理体系和组织效能的加速。

“N”指的是确定性运维构建的高可用、持续交付、运维能力可信、风险治理、资源治理、安全合规六大领域的主动运维能力，涵盖了从设计态、部署态到运行态的全生命周期的技术能力。

华为云依托多年积累的运维管理经验和覆盖全球的基础设施布局，应对复杂场景方面形成了独特优势，将确定性运维1+N体系能力整合，提供了OES (Operation Enabling Service) 、IMS(Infrastructure Management Service) 、AMS(Application Management Service) 三大解决方案，更进一步帮助实现故障快恢、全链路可观测和混沌演练，构建面向99.999%可用度的故障恢复能力，保障企业客户的业务稳定。

“我们无法阻止停电，但可以让黑暗中的数字世界继续发光。” 微光从数据中心延伸至圣地亚哥的公路、楼宇、商业中心等等，那里有更多的灯光正在苏醒，像一串被点燃的火柴，从安第斯山脚蜿蜒至太平洋沿岸，也许也是未来云计算行业确定性运维的演变路径。