2024 年 7 月 22 日,美国联邦通信委员会发布 AT&T 2 月份故障报告。
报告称,网络信号中断事件导致美国 1.25 亿台设备的语音通话和移动数据服务中断了数小时,超过 9200 万个呼叫被阻止,其中至少有 25000 个紧急呼叫被阻止。
以下为报告内的主要内容:
美国联邦通信委员会公共安全和国土安全局发现,这次中断影响范围广、持续时间长,是由几个因素共同造成的,包括配置错误、未遵守 AT&T 移动公司(AT&T Mobility)的内部程序、缺少同行评审、安装后没有进行充分的测试、不充分的实验室测试、确保影响核心网络的变更得到批准的保障和控制措施不到位、缺乏控制措施以减轻中断的影响,以及一旦配置错误被修复,导致停机时间延长的各种系统问题。
网元配置错误
2024 年 2 月 2 2日星期四凌晨 2 点 42 分,AT&T 移动公司的员工在常规夜间维护期间将一个新的网元部署到生产网络中,以扩增网络功能和容量。
这个网元配置错误,不符合 AT&T 的既定网元设计和安装程序,需要同行评审。
结果,网元被添加到 AT&T 移动公司的网络之前,网元配置错误并未被检测出来。
由于配置错误,下游网元将错误进一步传播到网络中。
这触发了自动响应,关闭了所有网络连接,以防止流量进一步传播到网络中。
关闭操作将所有语音和 5G 数据处理单元与无线信号塔和交换单元隔离开来,导致这些服务无法正常使用。
这就导致了 AT&T 移动公司的网络断开了向其网络注册的所有设备的语音服务和 5G 数据,包括 FirstNet 设备,全国范围的无线中断由此开始。
这一幕发生在凌晨 2 点 45 分,就在错误配置的网元部署到生产网络中后三分钟。
缺少同行评审
这次中断的直接原因是一名员工犯了错误,他错误配置了单个网元,最终导致 AT&T 移动公司的网络做出响应:进入保护模式,断开所有无线设备的连接。
充分的同行评审原本可以防止网络变更得到批准,进而防止网络变更被加载到网络上。
这种同行评审并没有出现。
安装后未充分测试
除了 AT&T 移动公司声称中断归因于执行不正确的流程外,另一个流程上的错误也可能导致了中断。
具体来说,安装后测试是一个公认的最佳实践,以确保网络变更得到正确实施,没有任何副作用。
虽然错误配置的网元在 2024 年 2 月 22 日被部署到生产网络中时执行了测试,但测试不充分,未能识别网元的错误行为,网络变更实施后仅三分钟就出现了错误行为。
有效的安装后测试原本有助于更快速地检测到配置错误的网元,因此 AT&T 移动公司可以更迅速地采取纠正措施。
AT&T 移动公司不是缺乏到位的监管控制措施以确保这些测试程序得到遵循,就是就算得到了遵循,这些流程本身也不够到位。
未进行充分的实验室测试
AT&T 的实验室测试并没有发现导致中断的网元配置错误,也没有识别出这个或类似错误配置给网络带来的潜在影响。
这种测试本该在代表生产环境的环境中进行运行,实际上未有效地模拟工作环境,也未在更广泛的网络上测试这个错误配置带来的影响。任何这样的测试原本可以在中断发生之前发现问题。
确保影响网络的变更获得批准的保障措施和控制措施不到位。负责任的网络管理原则和组织最佳实践规定网络变更必须经过彻底的测试、审查和批准,然后才能在网络内部实施。
这些保障措施有助于保护网络远离潜在风险,因为有助于确保这些风险在导致服务中断之前得到识别和补救。在这里,在网元部署到AT&T移动公司的网络之前,员工没有检测到网元配置错误,正是由于未遵守AT&T已确立的网元设计和安装流程,这需要同行评审。
两个步骤导致了网元配置错误进入到了 AT&T 移动公司的网络。
第一步是 AT&T 移动公司的员工的错误配置。
第二步是 AT&T 移动公司的另一名员工将含有配置错误的网络变更加载到了 AT&T 移动公司的网络中。
网络变更加载到 AT&T 移动公司的网络上,这个事实表明 AT&T 移动公司确保在加载之前得到批准的监管和控制措施不到位。
减轻配置错误影响的控制不到位
下游网元缺乏缓解这个错误的特定控制措施,因此无法减轻错误配置的网元造成的影响。由于网元缺少这些控制措施,它将流量进一步传向网络。这触发了保护模式防止重大故障蔓延到其他系统上。保护模式情形导致AT&T移动公司的所有客户从网络上断开。如果在错误配置的网元安装之前下游网元经过配置,拥有适当的控制措施,原本可以防止这起中断。
系统限制造成注册拥堵,延长了中断时间。
如上所述,一旦网络进入了保护模式,所有设备都从网络上断开了。
一旦“保护模式”被解除,用户设备必须在网络中重新注册,才能被识别、被提供服务。
在这里,一旦错误配置的网元被退出,所有用户设备自动尝试同时重新注册以重新连接到网络。
众多设备同时试图注册,远远超过了 AT&T 移动公司的网络管理系统的处理能力,导致大范围拥堵。
这种拥堵导致设备在注册到网络时延迟,从而延长了中断时间。在接下来的几个小时里,AT&T 移动公司的员工忙于采取额外的操作,以缓解注册延迟和更好地管理试图同时注册的大量设备。
下午 12 点 30 分,AT&T 移动公司认为注册恢复正常。
虽然 AT&T 移动公司的网络基本上在中午之前恢复了正常运行,但由于大量移动设备注册到网络导致拥堵,当天下午部分报警电话未能接通。