1200万人断网26个小时:配置失误、过滤器被删、核心网崩了

聊点云上事儿 2024-07-09 06:39:42

2024 年 7 月 8 日,加拿大广播电视和电信委员会(CRTC)发布了 2022 年 7 月 8 日 Rogers 中断报告。

CRTC 进行的一项独立审查将中断事件归咎于人为失误。

审查报告称,网络管理和系统“缺陷”加剧了这次中断。

CRTC 于 2023 年 9 月委托 Xona Partners 对中断进行审查,审查报告摘要现已在 CRTC 网站上发布。

2022 年 7 月 8 日清晨,加拿大知名电信运营商 Rogers Communications Inc.的互联网协议(IP)核心网遭遇重大服务中断,影响了其在加拿大全境的无线和有线服务(简称“2022 年 7 月中断事件”)。

中断从 2022 年 7 月 8 日美国东部时间 4 点 58 分持续到了 2022 年 7 月 9 日 7 点 00 分,在此期间服务逐渐恢复。

超过 1200 万客户失去了无线和有线服务,包括移动用户、家庭互联网用户、企业客户以及提供关键服务(如 Interac 电子转账和电子支付服务)的机构客户。

本报告详细介绍了独立评估 Rogers 网络架构可靠性和弹性的结果,以及 Rogers 管理网络变更的流程(变更管理流程)和响应故障等网络事件的流程(事件管理流程),这些流程与 2022 年 7 月中断事件密切相关。

在本报告中详细介绍了中断前和中断期间的调查结果,概述了 Rogers 此后为解决其网络设计和流程中的缺陷而实施的措施。

该报告主要基于全面独立审查了 Rogers 对多轮问题的回应、评估期间与 Rogers 技术和管理人员的会面以及 Rogers 在中断后应监管当局的要求提供的信息。

中断描述

背景。

首先介绍一下,Rogers 运营的无线网络和有线网络共享一个公共 IP 核心网,如图 1 所示。

Rogers网络架构的简化拓扑示意图:

核心网是电信网络的一部分,负责聚合和路由 Rogers 网络内部的内部数据流量以及与互联网和其他服务提供商之间的外部数据流量。

因此,对 Rogers 来说,无线数据流量和有线数据流量都由同一个 IP 核心网处理。

在 2022 年 7 月 8 日中断前几周,Rogers 正在执行一项分七个阶段的工作来升级其 IP 核心网。故障就发生在这个升级过程的第六阶段。

网络中断的根本原因。

2022 年 7 月中断事件归因于配置 Rogers IP 网络中的分布路由器出了错误。

Rogers 的员工从分布路由器的配置中删除了访问控制列表策略过滤器。

这导致大量 IP 路由信息涌入核心网路由器,从而引发了中断。

核心网路由器允许 Rogers 的有线和无线用户访问语音和数据等服务。

从分布路由器到核心路由器的 IP 路由数据洪流超过了核心路由器处理信息的能力。

从分布路由器配置中删除策略过滤器后没几分钟,核心路由器就崩溃了。

当核心网路由器崩溃时,用户流量再也无法路由到相应的目的地。

因此,移动电话、家庭电话、互联网、商业有线连接和 911 呼叫等服务停止了运作。

缺少路由器过载保护机制。

2022 年 7 月中断事件暴露了核心网路由器缺少过载保护。

如果核心网路由器配置了过载限制机制,指定路由器可以支持的最大可接受的 IP 路由数据数量,就可以避免这起网络故障。

然而,Rogers核心网路由器没有配置这种过载保护机制。因此,从分面目路由器上删除策略过滤器时,过多的路由数据涌入了核心路由器,从而导致核心路由器崩溃。

变更管理流程存在不足。

配置错误导致从分面目路由器配置中删除了策略过滤器,这是 Rogers 的员工对变更管理疏忽的结果。

Rogers 的员工删除了防止 IP 路由泛滥的策略过滤器,以期清理分布路由器的配置文件。变更管理流程(包括变更参数的审计)并没有标出错误的配置变更。

如上所述,这次配置变更出现在几周前开始的七阶段网络升级过程的第六阶段。

在这个第六阶段配置更新之前,此前的配置更新已成功完成,没有任何问题。

Rogers 最初将这七阶段过程的风险评估为“高风险”。

然而,由于前几个阶段的变更已成功完成,风险评估算法将配置变更第六阶段的风险级别降至“低风险”,包括导致 2022 年 7 月中断的变更。

低风险评估使得 Rogers 的员工不需要进行额外的审查、通过更高级别的批准,并对该配置变更进行实验室测试。

将改变路由策略中访问控制列表过滤器的风险评估降级为“低风险”违反了行业规范,原本需要对此类配置变更进行严格审查,包括在部署到生产级网络之前进行实验室测试。

Rogers 网络架构的可靠性

Rogers 网络是全国性 Tier 1 网络,其架构是为确保可靠性而设计的,这是此类 Tier 1 服务提供商网络应当具备的典型架构。

2022 年 7 月中断并不归因于 Rogers 核心网架构的设计缺陷。

然而,由于无线网络和有线网络共享一个共同的 IP 核心网,故障范围极大,导致了所有服务灾难性丢失。

这种网络架构对于许多服务提供商来说很常见,也是有线电信网络和无线电信网络趋向融合的一个例子。

这是包括 Rogers 在内的服务提供商力求兼顾成本与性能的设计选择。

影响网络恢复的几个因素

网络管理基础设施。

管理网络便于员工访问网络中的关键基础设施站点或设备,以便故障排除和维修。

在 2022 年 7 月发生中断时,Rogers 的管理网络依赖 Rogers 的 IP 核心网。

当 IP 核心网在故障期间无法正常运行时,Rogers 的远程员工无法访问管理网络。

此外,Rogers 没有为其网络运营中心和其他关键的远程基础设施站点提供从替代服务提供商进行冗余连接以便网络管理的服务。这限制了 2022 年 7 月中断期间对关键网络设备的访问,以便故障排除和根本原因分析。

Rogers 不得不派员工到远程站点实际访问受影响的路由器,这延误了网络恢复工作。

网络弹性要求电信网络运营商可以通过替代的途径安全地访问不依赖数据网络的关键远程网络元件。

Rogers 的远程工作人员无法访问管理网络,又无法从替代服务提供商安全地连接至网络运营中心和其他关键远程站点,共同导致了 2022 年 7 月中断时间延长。

Rogers 员工之间沟通有限。Rogers 的员工依靠公司自己的移动和互联网服务来相互沟通。当无线网络和有线网络都出现故障时,Rogers 的员工(尤其是关键的事件管理人员)在故障发生最初几个小时内无法有效沟通。

Rogers 不得不将来自其他移动网络运营商的用户身份模块(SIM)卡发送到远程站点,以使员工能够通过无线连接相互沟通。

缺乏到位的替代沟通手段导致 Rogers 对 2022 年 7 月中断事件响应缓慢。

未能及时获取关键信息进行网络恢复。

缺少信息阻碍了 Rogers 的事件管理流程。

Rogers 的员工最初无法访问故障路由器的错误日志,在中断发生后的大约 14 个小时内无法确定根本原因。

此外,Rogers 在中断当天的维护窗口期间完成了多次配置变更。这对中断恢复工作产生了不利影响,很难决定回滚哪个网络变更工单。

这两个因素导致在 2022 年 7 月中断的最初几个小时内误诊了网络故障的根本原因。

然而,一旦查明了根本原因,网络恢复活动就有条不紊地开始,服务也逐渐恢复。

改进

解决故障的根本原因和管理网络架构方面的不足。

在 2022 年 7 月中断后的几个月里,Rogers 采取了一系列措施和举措来解决中断暴露的严重缺陷。

最重要的是,Rogers 在其核心网路由器的配置中实施了安全措施,以防止 IP 路由数据洪流,从而防止将来发生类似的中断。

Rogers 还实施了一个独立的物理和逻辑管理网络,以访问网络元件以便故障排除和根本原因分析。

此外,Rogers 部署了从第三方服务提供商到其网络运营中心和其他关键远程基础设施站点的备用连接,并添置了有助于验证路由器配置变更的工具。

无线网络和有线网络使用单独的 IP 核心网。

在中断之后,Rogers 宣布决定将其无线网络和有线网络的 IP 核心网分开。这个决定需要为无线网络部署新的 IP核心网,而现有的 IP 核心网将继续服务有线网络。因此,如果一个 IP 核心网受到故障的影响,另一个 IP核心网不受影响,并继续运行。

Rogers 还没有最终确定 IP 核心网分离的实施,这仍是一项进行中的工作。

一旦实施,无线网络和有线网络的单独 IP 核心网有助于将故障遏制在各自的访问网络,从而避免 2022 年 7 月中断事件所遭遇的此类灾难性网络中断:由于公共核心 IP 网络的中断,无线服务和有线服务都无法使用。IP核心网分离将提高 Rogers 无线网络和有线网络的整体弹性。

改进变更管理流程。

在 2022 年 7 月中断后,Rogers 对其变更管理流程进行了几处改进。

这些改进包括:一种新的风险评估算法;改变组织以加强网络运营团队和工程团队的协作;加强引入新设备和新技术的流程;改进实施网络变更(比如引入自动化以简化变更管理流程);以及对计划的网络配置变更增加实验室测试。

改进事件管理流程。在 2022 年 7 月中断之后,Rogers 对其事件管理流程进行了改进,包括:加强事件管理指南,以涵盖各种中断场景;明确领导角色,简化事件响应;实施中断期间确定报警优先级的解决方案;改进新变更不成功时自动回滚到以前的配置;以及实施额外的措施来改进通信协议。Rogers还为所有事件响应和危机管理团队成员配备了来自第三方服务提供商的备用通信,以便在中断期间保持沟通能力。

评估和建议

总体评估是,Rogers 在 2022 年 7 月中断后采取的一系列措施令人满意,除了解决 2022 年 7 月中断的根本原因外,还有助于提高 Rogers 网络的弹性和可靠性。

认真实施改进的变更管理流程将是避免将来发生类似故障的最有效方法。改进事件响应流程将改善 Rogers 响应,以便在发生网络中断时更快速地恢复服务。我们有几个建议,Rogers 可以采取额外的措施,以进一步提高网络弹性。这些建议如下:

1、测试与其他移动网络运营商之间的紧急漫游,以覆盖更全面的测试场景。Rogers 已签署了电信可靠性谅解备忘录,包括与其他移动网络运营商之间的紧急漫游,从而使 Rogers的客户能够在重大中断期间访问紧急服务(比如911电话)。这项额外的测试将确保在不同的网络中断场景下紧急漫游切实可行;具体来说,是指 2022 年 7 月中断期间观察到的场景(无线网络正常,核心网宕机)。

2、为将来的严重中断制定详细的根本原因分析。这将有利于评估中断及其影响的流程,以及确定适当的缓解措施。

3、确保测试配置变更的广泛覆盖和严谨性。这将有助于避免导致潜在中断的错误。Rogers将需要利用新的测试工具对复制生产级网络的测试场景进行建模,并适应网络技术的演变。

4、扩大事件管理演练的范围。这将加强员工和网络的应急准备,并主动发现薄弱环节。

5、从自身和其他服务提供商的网络中断中汲取教训,以实施预防措施、尽量减小网络中断的影响并提高服务质量。

6、告知客户在中断期间如何获取911服务。

7、与更广泛的互联网社区交流故障的根本原因和缓解策略,以帮助其他电信网络运营商防止类似的网络故障。

针对电信网络运营商的建议

从 2022 年 7 月中断事件汲取的重要教训总结如下:

1、在 IP 核心网和分布网络中实施路由器过载保护。

2、物理上和逻辑上实现网络管理层与数据网络分离。

3、为网络运营中心和其他重要的远程站点提供第三方电信网络运营商提供的安全备用连接。

4、确保网络配置变更的审计流程有效,并牵涉组织内的不同团队,比如工程、运营和项目管理团队。如果配置变更涉及关键基础设(比如IP核心网),还建议牵涉设备供应商。

5、对计划的配置变更进行实验室测试,确保实验室设备和测试场景准确反映生产级网络。

6、认真管理单个维护窗口中完成的配置变更数量,并利用工具和流程自动回滚配置参数。

7、实施警报优先级自动确定解决方案,以遏制各种变更的不必要警报,以便员工专注于重要警报。

8、为关键员工提供辅助的沟通手段,比如第三方网络运营商的 SIM 卡。

9、模拟和演练网络故障和中断场景,以发现网络架构和事件管理流程方面的缺陷。

不断演变的电信网络趋势。不断演变的电信网络趋势影响着网络的可靠性和弹性,这包括以下几个趋势:电信公共云平台、网络软件化及虚拟化、人工智能在网络自动化中的使用日益广泛、后量子网络安全准备就绪以及地面网络和非地面网络融合。加拿大电信服务提供商们正在将其中一些趋势纳入其网络演变中。我们着重列出了几个技术和流程建议,它们在面对这种不断演变的网络趋势时有望加强网络弹性。这些建议包括如下:

1、技术建议:

A. 利用新兴的非地球静止轨道卫星群(比如低地轨道卫星群)为远程站点提供备用连接,并考虑为紧急 911 呼叫使用新兴的直连手机卫星群。

B. 跟踪并准备实施第三代合作伙伴项目(3GPP)标准制定机构目前正在规划的灾难漫游标准。

C. 考虑使用 OTT 消息传递应用程序作为替代通信方法,包括紧急服务。这在某些关键系统(比如IP多媒体系统)出现故障时非常有用。

D. 利用基于软件的动态 SIM 技术,它提供了各种级别的可编程性,以便发生重大故障时为替代提供商提供新的漫游模式。

E. 考虑利用应急频谱和容量共享技术,以减轻网络故障的影响。这些技术可以临时动态地增加网络容量,以适应漫游用户。

F. 考虑与内容交付网络和 OTT 应用提供商合作,以定义紧急情况下特定的交互模式。比如说,动态流量管理允许内容提供商根据电信运营商的反馈调整其行为。

G. 考虑为关键基础设施服务提供商提供冗余连接服务的辅助选项。

2、流程建议:

A. 实施事件响应培训和演练,以发现架构、运营和业务流程方面对中断恢复工作产生不利影响的薄弱环节。

B. 实施事件管理响应关键绩效指标,以衡量事件响应工作,并提高成效。

C. 为人员指定明确的角色和职责,以更好地应对网络中断。

D. 考虑计算网络中断的成本影响,通过资源分配决策和与利益相关者的沟通来帮助减轻事件的后果,以维护品牌形象和财务稳定。

E. 在中断期间,建议服务提供商提醒和告知公众如何访问紧急呼叫和公共警报服务。

4 阅读:9081
评论列表
  • 2024-07-09 19:07

    肯定是临时工干的已经离职 常务副总表示加强内部教育杜绝此类事情发生

  • 臭红 10
    2024-07-09 12:54

    是不是老板欠薪,欠网管哦

  • 2024-07-09 09:09

    国外人手少,做的软件功能都不全,bug多,服务都不完善。

    用户19xxx26 回复:
    人手肯定不少[抠鼻]
  • 2024-07-09 18:47

    断就断了呗,竟然还独立审计

  • 2024-07-10 07:29

    此事古皆同[呲牙笑]

聊点云上事儿

简介:感谢大家的关注