2024年7月19日,由于美国网络安全公司CrowdStrike分发异常更新,全球大批安装Windows操作系统的计算机和虚拟机设备出现故障,并波及多个行业。此事被专家称为“历史上最严重的IT故障事件”。
众多行业受到冲击,如航司、机场、银行、酒店、医院、证券市场及广播电视;政府服务(如紧急电话号码和政府网站)亦受影响。该故障于当天被发现并修复,但此次事件仍持续导致航班延误,电子支付和紧急服务也未能幸免。
事件背景
CrowdStrike编写一系列安全软件保护计算机免于网络攻击。旗下“猎鹰传感器”(Falcon Sensor)在个人电脑的操作系统层面安装网络传感器,以检测和预防威胁。CrowdStrike会定期向客户分发补丁,使他们的计算机能够应对新的威胁。
7月18日,即在此次问题更新前,Microsoft Azure云服务发生异常,导致美国中部部分Azure用户无法访问其云存储及Microsoft 365服务。微软表示,两起事件并无关系,但对这些受影响公司的客户来说,问题却更加复杂。
世界协调时7月19日4时09分,部署在Azure的Windows虚拟机开始重启及崩溃,6时48分,谷歌计算引擎报告此问题。7时15分,谷歌宣布CrowdStrike更新存在问题。
CrowdStrike首席执行官乔治·库尔茨确定此事由CrowdStrike'的异常驱动更新造成,而非网络攻击。
技术细节
世界协调时2024年7月9日4时09分发布的配置文件(此处称为通道文件)更新与Windows传感器客户端发生冲突,造成受影响的设备蓝屏死机,并显示终止代码PAGE_FAULT_IN_NONPAGED_AREA。这造成设备陷入启动循环或恢复模式。该故障主要发生于运行Windows 10及Windows 11的设备,而运行Windows 7或Windows Server 2008 R2的设备未受影响。该故障仅存在于安装CrowdStrike Falcon的Windows设备,绝大多数个人电脑免于故障。
补救措施
受影响设备需通过安全模式或Windows恢复环境删除文件以恢复正常。由于这一过程必须在每台机器上逐一完成,受影响的企业或需假以时日以恢复所有系统。此外,部分微软用户发现将电脑重启约十五次后亦可解除问题,因为若电脑反复重启,CrowdStrike可能自行更新并在电脑崩溃前修复损坏文件。CrowdStrike于世界协调时5时27分发放内容更新,已下载更新的设备重启后将不受影响。世界协调时9时45分, 首席执行官乔治·库尔茨证实修复程序已被部署。
影响
此次事件影响全球。由于全球许多IT企业都使用Windows和CrowdStrike软件,因此许多商业部门都收到了中断服务的报告。分发问题更新的Crowdstrike公司拥有约24,000名客户,由于其订户多为大型企业,故实际影响电脑数目不可估量。而截至2021年,预计有47%的财富500强企业使用了该公司的产品。CrowdStrike在其网站上声称,它的客户包括近60%的财富500强公司和一半以上的财富1000强公司。中国因其重视高科技领域的自给自足,未受严重影响。俄罗斯和伊朗因国际制裁导致使用美国高科技公司产品受限,并无相关故障报告。全球共有5078班航班(占定期航班的4.6%)被取消。
航空运输业
德国柏林勃兰登堡机场和美国洛杉矶国际机场等部分大型国际机场的运作均受严重影响,大量航班延误或停飞。美国方面,美国航空、达美航空、联合航空等大型航空公司暂时停飞所有航班。香港国际机场受事件影响,大批旅客排队等待人手办理登机手续,多为搭乘廉航香港快运航空的离港乘客。香港机场管理局称紧急预案已经启动以应对几家航空公司网站无法运行和办理登机手续需要人工操作的问题。国泰航空、香港快运航空和香港航空通知旅客,其预订系统暂不可用。日本航司春秋航空日本和韩国航司济州航空受此事冲击。宿雾太平洋航空和菲律宾亚洲航空的航班因其系统面临技术问题延误。受此影响,尼诺伊·阿基诺国际机场一度大排长龙。法国航空在周五宣布,他们的多项服务受到了技术问题的影响,尽管戴高乐机场和奥利机场没有受到直接影响。尽管公司的网站和应用程序运作正常,但客户服务电话可能会中断。法国航空的技术团队正在全力解决这些问题。系统故障导致西班牙所有机场的管理和网络服务中断,进而可能导致航班延误。西班牙机场管理局确认了这一情况,并表示手动系统仍在运行,以尽可能减少影响。爱尔兰的瑞安航空也遭遇了类似问题,全球性的技术故障导致了他们的网络中断。瑞安航空建议所有乘客提前至少三个小时到达机场,以避免出行计划受到影响。
法国
巴黎奥运组织委员会确认,他们面临重大技术问题。这些故障已经影响到认证系统,可能导致一些参与者无法及时获得徽章,同时也可能影响到运动员的航班安排。组委会已经启动了紧急计划,并表示他们将与技术团队和相关方密切合作,尽快恢复赛事的正常运行。
澳大利亚
澳大利亚商业及政府机构受此事件影响,如媒体、航司、机场、超市和银行。本次事件中受冲击的媒体机构有澳大利亚广播公司、特别广播服务电视网、七号电视网和九号电视网。受影响的航空公司有澳大利亚航空、维珍澳大利亚航空和捷星航空。悉尼机场发言人表示此次事件影响部分航司运营,机场个别航班当晚可能延误。墨尔本机场亦被波及。零售商和快餐连锁店也受到故障影响,导致自助结账和在线订单系统无法使用。顾客无法使用信用卡付款,甚至无法使用POS结账。受影响的超市有Woolworths超级市场和客澳市。移动银行软件,如国民银行、澳盛银行、联邦银行、本迪戈银行和新科银行因此事瘫痪。同时,由于POS系统无法工作,DFO South Wharf的店铺受到严重干扰。联合护理和拉姆塞医疗保健表示医院的系统出现故障,并为患者制定应急计划。
克罗地亚
克罗地亚中央健康信息系统和空管系统受本事件冲击。
马来西亚
马来西亚国家网络安全机构(NACSA)发表声明指出,全球范围内的微软系统故障严重影响了马来西亚的重要部门,包括电视台、机场和银行。此外,在吉隆坡国际机场,系统中断导致乘客办理登机手续和等待时间显著延长。马来亚铁道公司的所有客服渠道也因全球性系统故障而受到影响。公司在其面子书页面上发布了一份声明,表示他们目前正在紧急修复技术问题,声明中还表达了铁道公司对造成的不便的歉意,并感谢公众的关注和耐心等待。数小时后,马来亚铁道公司在官方面子书专页证实技术问题已得到解决。
菲律宾
菲律宾众议院等政府网站因全球性系统故障而受到影响。首都银行、菲律宾土地银行、菲律宾联合银行、菲律宾群岛银行、菲律宾国家银行等银行在线系统因中断而瘫痪。
回应
澳大利亚政府就此事举行了紧急会议,同时启动国家协调机制。总理安东尼·阿尔巴尼斯称“我知道澳大利亚人民对正在全球范围内发生的影响广泛的服务中断感到担忧。我国政府正在与国家网络安全协调机关密切合作”。并补充道:“在现阶段,关键基础设施、政府服务或‘三零’(当地紧急求救电话)服务没有受到影响。国家协调机制已经启动,目前会议正在进行。”