在黑暗中保有一束“光”,智利大停电带给云计算行业的启示录

TechForWhat 2025-03-20 16:49:04

作者 | 由仪

编辑 | 阿文

2025年2月25日15时16分,智利首都圣地亚哥,圣克里斯托瓦尔(圣母山)山顶的缆车突然定格在钴蓝色的天幕下。

圣母山是圣地亚哥的制高点,全城景色尽收眼底,但此时此刻,还未及从惊呼中镇定,他们发现缆车窗外的城市仿佛瞬间被寂静吞噬,公路上的车流纷纷亮起红色刹车灯,事后他们才知道,这是智利十多年来最大规模的一次电路故障。

智利北部500千伏的输电线缆猝然崩溃,电流脉冲如多米诺骨牌般沿着安第斯山脉向南奔逃,全国98%以上的人口陷入到大停电中,首都圣地亚哥及14个大区的基础设施瘫痪,当地政府随即宣布进入“灾难紧急状态”,实施宵禁并启动应急响应机制。

这场危机不仅暴露了传统能源系统的脆弱性,也意外成为全球云计算行业应对极端事件的“压力测试场”,在算力即生产力的时代,云数据中心的存续与政府、金融等公共服务紧密相连。

“不要浪费一场危机”,全球云计算行业在此次事件中收获的价值,远超常规演练的极限数据,如何通过技术架构创新、组织能力建设和全球化布局,构建新时代云计算的“数字韧性”,答案便在智利那座指示灯一直闪烁、服务器轰鸣从未停止的数据中心。

数字化如何实现“反脆弱”

《黑天鹅》的作者纳西姆·尼古拉斯·塔勒布,时隔几年之后写下了《反脆弱》,他认为,万事万物都对外呈现三种状态:脆弱态、强韧态、反脆弱态,反脆弱性是一个超越复原力和强韧性的概念。复原力只是事物抵御冲击,并在重创后复原的能力,而反脆弱性则进一步超越了复原力,让事物在压力下逆势生长、蒸蒸日上。

智力大停电再度印证了一件事,当数字化基建提供了前所未有的效率,一旦“黑天鹅事件”出现,越是重要的基础设施,受灾影响就越大,现实是,我们不可能预测所有的潜在风险因素,但我们又必须尽可能提高数字化的“反脆弱性”。

大停电中的云计算数据中心,亟需这种反脆弱性。当前云计算企业在基础设施的防护实践中,普遍将资源集中在“云内”风险管控上,例如数据中心的服务器硬件、虚拟化平台漏洞修复、运维人员的权限管控与误操作预防等。

随着企业上云进程的加速和业务复杂度的提升,在过去十年,云计算行业的运维水平有了很大程度的提高,而类似大停电这类极端事件给行业提了个醒,当云数据中心成为社会基础设施,仅关注云内防御已无法应对日益多样化的威胁场景,“云外”风险逐渐成为企业韧性体系的短板。

位于智利的华为云数据中心成为了数字化反脆弱的样本案例。中国某全球领先的智能摄像头解决方案提供商,其云存储服务部署于华为云智利节点,服务覆盖拉美地区超百万用户。

在智利发生区域性断电事故期间,依托高可用基础设施建设及标准化的运维体系支撑,仅智利断电区域用户受到短暂影响,其余地区99%以上用户业务保持正常运行,帮助该企业抵御65%+潜在中断风险。

这背后的反脆弱性,来自于华为云SRE(Site Reliability Engineer,站点可用性工程师)。

防之于未萌,治之于未乱

华为云SRE的使命就是让云服务稳定可靠,要实现这一目标,肯定不是一朝一夕的功力,华为云的理念是“防之于未萌,治之于未乱”,通过前瞻性设计、主动预防和动态治理,在潜在风险尚未形成破坏性影响时提前预防,确保系统在复杂环境中保持稳定性和反脆弱性。

就智利数据中心来看,云数据中心要保证客户业务平稳运行,至少要面对“三重挑战”,首先是在断电极端环境下,基础设施如何抗压。

构建高可用的基础设施架构是应对极端情况的关键方法。智利地震频发,其停电风险及停电时长显著高于其他国家。华为云智利站点在建设之初便采用了最高级别的质量标准,构建了由“市电+柴油发电机+不间断电源系统(UPS)+智能调度”组成的四层高可用保障架构,同时储备了3万升柴油,足以支持144小时的长时间发电需求。

当大停电发生,华为云通过智能能源管理系统动态调配备用电力,确保在故障情况下仍能提供电力供应,保证备用电源续航,为电力恢复争取关键窗口期,备电启用后,0损切换柴油发电机发电。

其次,完备的应急响应机制。在智利突然断电的瞬间,华为云资源监控平台系统自动触发警报,SRE团队在1分钟内迅速集结应急指挥室(Warroom-能够支撑运维、研发、运营联合作战,保障业务快速恢复而组建的会议),联合300多位跨国专家共同应对断电事故。

华为云拉美地域SRE责任人回忆道:“华为云经过了多次极端故障经验沉淀,Warroom机制是非常完善的。我当时正在和智利办公室进行会议,得知智利全国停电后,我立马把Warroom拉了起来,启动全量业务巡检,不能让客户业务出问题。”

华为还提供了全链路可观测能力,不仅能及时识别问题,支撑事故迅速响应,在事故发生后,也能够快速恢复业务提供支撑,通过多平台进行核心指标观测,为备电切换后机房、云资源、租户面提供全方位的指标监控。全量业务端到端巡检以及7×24h关键业务重点保障,保障业务的连续性和安全性,确保智利断电后紧急问题能够迅速得到解决。

最后,待到电力恢复,数据中心还有一重难关要挺过。由于智利国家电力恢复时间未知,若电力恢复,IoT设备会面临电源恢复后突发流量带来的性能冲击,需持续组织服务和业务巡检,对电力恢复后的OBS等业务浪涌准备应急预案,主动监控业务端到端流量变化,并深入一线机房做好巡查,全面监测指标稳定。考虑到所在区域市电的稳定性,在智利市的电力恢复之后,华为云额外进行了为期6小时的重点保障工作。

当圣地亚哥第一盏路灯重新亮起时,华为云的跨国作战指挥链已转入静默值守模式,华为云智利节点经历了激动人心的27小时的奋战。

通过电力0中断切换柴发、1min拉起Warroom响应、7×24h重保、持续监控和预警并完成业务端到端巡检,华为云在此次智利全国大停电事故中,确保了业务的连续运行,实现了零中断的保障,为客户提供了高质量的服务支持。

在黑暗中保有一束“光”

智利大停电不仅是一次技术压力测试,更是数字时代基础设施反脆弱的全球启示录。在刚刚过去的2024年,全球大型云计算厂商发生重大事故42+个,截至目前,华为云已维持590+天0重大事故,维持业界领先。

在此前2023年2月份的新加坡整岛市电异常中,机房遭受双路市电电压骤降,制冷系统重启后工作异常,机房内持续温升最高至60℃左右,造成不可控风险。华为云紧急启动Warroom进行高温重保,经过22+小时全链路重保,在其他云厂商机房大面积故障时,华为云机房温度得以恢复正常,最终实现业务0中断。

通过一系列极端事件应对的总结,华为云带给云计算行业的思考是,运维不是单纯的技术问题,也不是流程问题,而是一整套管理体系的塑造,如此才能保证现网质量预期确定、管理确定、实现确定,这也是云计算行业倡导的确定性运维的含义。

《有限与无限的游戏》告诉我们,有限的游戏,其目的在于赢得胜利;无限的游戏,却旨在让游戏永远进行下去,有限的游戏在边界内玩,无限的游戏玩的就是边界。

数据中心的稳定运行恰恰就是一场无限游戏,大停电再度拓展了游戏的边界,全球云厂商都要适应并学习新时代的反脆弱性,华为云经过多年的沉淀,总结出确定性运维“1+N”体系,旨在构建可防、可控、可治的运维管理体系。

确定性运维“1+N”体系的核心是——通过高质量的产品开发,严谨的运维流程和制度来降低故障的概率,同时也要有技术手段对可能发生的故障,将故障间隔、影响范围及故障恢复时间降到最低,要把数字化带来的“不确定性”通过运维变成“确定性”,不断达成更高的系统可用性,实现确定性的运维结果。

“1”指的是“管理体系”,涵盖组织、流程和工具三个方面。组织转型涉及企业内部人力资源的重新分配与布局,流程体系贯穿产品的整个生命周期,运维工具作为管理体系和组织效能的加速。

“N”指的是确定性运维构建的高可用、持续交付、运维能力可信、风险治理、资源治理、安全合规六大领域的主动运维能力, 涵盖了从设计态、部署态到运行态的全生命周期的技术能力。

华为云依托多年积累的运维管理经验和覆盖全球的基础设施布局,应对复杂场景方面形成了独特优势,将确定性运维1+N体系能力整合,提供了OES (Operation Enabling Service) 、IMS(Infrastructure Management Service) 、AMS(Application Management Service) 三大解决方案,更进一步帮助实现故障快恢、全链路可观测和混沌演练,构建面向99.999%可用度的故障恢复能力,保障企业客户的业务稳定。

“我们无法阻止停电,但可以让黑暗中的数字世界继续发光。” 微光从数据中心延伸至圣地亚哥的公路、楼宇、商业中心等等,那里有更多的灯光正在苏醒,像一串被点燃的火柴,从安第斯山脚蜿蜒至太平洋沿岸,也许也是未来云计算行业确定性运维的演变路径。

0 阅读:0
TechForWhat

TechForWhat

数字时代,技术当立。关注行业数字化转型实践与案例。