史上最大规模宕机事件的10个重要教训

网络安全公司CrowdStrike旗下的猎鹰传感器（Falcon Sensor）的一次软件更新引发了一场全球危机，导致全球安装有Windows系统计算机出现大规模的蓝屏死机（blue screen of death,即BSOD），结果数千架航班被迫停飞、医院陷入混乱、支付系统崩溃，直接影响了数百万用户，成为历史上最大的 IT 故障。初步统计，宕机事件给财富 500 强企业造成高达 54 亿美元的损失。

此次宕机是由于CrowdStrike猎鹰传感器的更新中存在缺陷而引发的，相关更新出现一个逻辑错误进而导致系统崩溃，特别是Windows设备。

IT管理员被迫通过手动方式解决该问题，同时微软公司发布了相关工具进行系统恢复。CrowdStrike公司也部署了一个修复程序，并向受影响的客户持续提供更新和补救措施。

尽管做出了这些努力，CrowdStrike公司的股价仍然遭受重创。CrowdStrike公司本可以采取哪些措施来避免这类事件发生？他们采取的哪些措施值得推荐？

下面是此次CrowdStrike引发的宕机事件中得出的10个重要教训。

一、确保开展严格的部署前测试

在软件发布到生产环境之前，开展严格的部署前测试以识别和减轻潜在的漏洞影响是非常必要的。这一测试阶段涵盖各项全面评估，包括单元测试、集成测试、系统测试和用户验收测试。

此次CrowdStrike宕机事件凸显了开展全面部署前测试的必要性。导致大规模系统崩溃的猎鹰传感器更新中包含的逻辑错误，本可以通过更严格的测试来加以识别和纠正。此外，严格的测试程序可以模拟各种场景，包括边缘情况和压力条件，以保障软件在不同情况下的鲁棒性。

有效的部署前测试会在软件部署之前识别出错误的配置更新，从而避免用户遭受重大的运营中断。这种全面的测试方法不仅提高了软件的可靠性，还增强了用户的信任程度，并减少了昂贵的部署后修复费用和声誉受损风险。

二、优先考虑事件响应培训

安全事件响应培训在网络安全中至关重要，因为它使组织能够有效地处理和减轻安全事件带来的影响。这种培训为人员提供了必要的技能和知识，以迅速有效地应对各种网络威胁，例如恶意软件攻击、数据泄露和系统中断。

这是CrowdStrike猎鹰平台做得好的一点，由于该公司对逻辑错误的快速识别和纠正，减少了系统遭受停机和负面影响的程度，这显示了有准备充分的事件响应团队的重要性。适当的事件响应培训涉及制定一个全面的事件响应计划、演练和随时掌握最新的威胁情报。

这些措施能确保团队能够快速发现并处理威胁，减少组织遭受的潜在威胁。此外，事件响应培训培养了组织的安全意识和准备文化，鼓励采取积极的措施以防止事件的发生。培训还包括了沟通程序，确保在事件发生期间团队能告知并协调所有的利益相关者。

三、促进国际网络安全合作

由于网络威胁具有全球影响的属性，因此国际合作在网络安全中至关重要。网络攻击者通常不受国界影响，因此组织协调全球响应对于有效打击这些威胁至关重要。这种合作包括在国家和组织之间共享威胁情报、最佳实践和事件响应策略。

此次CrowdStrike宕机事件影响了全球系统。这些受影响组织之间的国际合作和信息共享对于迅速有效地解决这种全球问题至关重要，能帮助不同国家的组织增强其整体的网络安全态势，提高其发现和应对威胁的能力，并降低网络事件造成的威胁风险。国际合作还促进了全球网络安全标准和框架的发展，促进了在安全实践方面的一致性和互操作性。

此外，研发团队的联手合作能够研究出应对新兴网络威胁的创新解决方案，进而使所有参与的国家受益。因为各国通力合作来应对共同挑战，这种协作方式还有助于建立信任和加强外交关系。总体而言，加强网络安全的国际合作对于为全球个体创造一个更安全的数字环境至关重要。

四、开展定期审计和测试

开展定期审计和测试是健全网络安全策略的关键组成部分。定期审计包括系统地审查和评估组织的安全政策、程序和控制措施，以识别弱点并确保符合行业标准和法规。另一方面，测试包括漏洞评估、渗透测试和安全扫描等活动，以在可疑漏洞被利用之前得到发现和解决。

此次CrowdStrike宕机事件显示了开展定期审计和测试的重要性。本可以通过更频繁和更彻底的测试程序来识别到导致系统崩溃的错误更新。通过开展定期审计和测试，组织可以识别并纠正安全漏洞，确保其系统的完整性，并维持高水平安全。

这些实践还有助于不断提高组织的网络安全态势，提升其抵抗网络威胁的韧性。此外，定期审计和测试促进形成了主动应对网络安全的方法，使组织能够领先于潜在威胁并降低数据泄露和业务中断的风险。

五、网络安全专业知识和资金

随着网络威胁变得越来越复杂，网络安全专业知识和资金的重要性不言而喻。熟练的网络安全专业人员对于开发、实施和管理有效的安全措施至关重要。充足的资金对于支持这些工作至关重要，能够允许组织投资于先进的安全技术、开展定期培训和随时获取最新的威胁情报。

此次CrowdStrike宕机事件凸显了快速识别和纠正问题所需的高水平专业知识和资源。网络安全威胁的复杂性、管理及减轻这些威胁的复杂性、对网络安全专业知识和资金的投入增加，对开发健全的系统和防止类似事件再次发生至关重要。随着网络攻击的发生频率和复杂性增加，组织必须优先考虑组建和维护一支强大的网络安全工作队伍。

这不仅包括雇佣熟练的专业人员，还包括投资于对人员的持续教育和培训。充足的资金确保这些专业人员能够获得必要的工具和技术来有效地保护组织的资产。此外，一个资金充足的网络安全计划使组织能够实施全面的安全措施、开展定期审计和测试、制定健全的事件响应计划。

六、在效率与安全之间取得平衡

在当今快节奏的数字环境中，在效率与安全之间取得平衡至关重要。虽然运营效率对业务成功很重要，但不应以牺牲安全为代价。虽然快速部署各项更新很重要，但此次CrowdStrike宕机事件表明，优先考虑速度而不是彻底的安全检查可能会导致严重后果。

确保在追求效率的过程中不绕过或忽视安全措施，是防止漏洞不被网络攻击者利用的关键。这涉及执行已被无缝集成到组织工作流程中的安全程序和控制措施，使同时实现效率和强大的保护成为可能。

各组织应该培养一种安全被视为运营流程的基本要素而非障碍的文化。通过这样做，组织可以实现在保持高水平安全的同时高效运营的一种平衡。此外，定期审查和更新安全政策和程序能确保这些政策和程序的有效性，并且确保其不会妨碍业务运营。

七、在事件期间保持透明沟通

有效和快速的沟通对于科技公司至关重要，尤其是在发生网络安全事件期间。及时的沟通能确保客户、员工和合作伙伴在内的所有利益相关者，都了解到事件情况以及处理步骤。

此次CrowdStrike宕机事件凸显了快速和透明沟通的重要性，与客户的及时更新和清晰沟通有助于减轻事件影响，并指导客户完成补救措施。及时的沟通可以防止错误信息的传播、减少恐慌和维护信任。还能使所有人都意识到他们在减轻事件影响中承担的职责和责任，从而协同各方努力。

科技公司应该建立清晰的沟通程序和渠道，确保信息快速和准确地传播。这包括为不同类型的事件准备模板和指南，定期开展沟通演练，并更新所有利益相关者的最新联系名单。通过优先考虑快速沟通，科技公司可以增强其事件响应能力，降低安全事件的影响，并保护公司声誉。

八、分阶段推出更新

分阶段推出更新是管理新软件或系统变更部署的有效策略。通过分阶段发布更新，组织可以在全面部署更新之前观察小规模更新所带来的影响。这种方法能够较早地发现和解决问题，降低产生大规模宕机的风险。

此次CrowdStrike宕机事件同时影响了很多系统，凸显了分阶段推出更新的潜在优势。如果分阶段部署更新，逻辑错误可能在影响大量系统之前就被识别和纠正。

分阶段推出更新还使组织能够从较小的用户群体中收集反馈，进而开展改进和优化。这种方法不仅降低了主要问题的发生风险，还提高了软件的整体质量和可靠性。

采用多云策略（multi-cloud strategy）也可能有所帮助。这涉及使用多个云服务提供商来分配工作负载，降低停机时间和数据丢失风险。这种方法增强了冗余和韧性，确保如果一个服务商遭受服务中断，组织可继续使用另一个服务商来运营。

九、通过备份服务器和替代数据中心来确保业务连续性

备份服务器和替代数据中心是全面IT策略的关键组成部分，特别是对于那些严重依赖数字运营的企业。它们作为防止数据丢失和系统故障的保障措施，确保了业务连续性并减少停机时间。CrowdStrike事件凸显了对于制定稳健的灾难恢复计划的需求，以快速恢复受影响的业务并减少对企业运营的影响。

备份服务器是用于存储关键数据和系统配置副本的专用服务器。它们的主要功能是在主系统遇到故障或数据损坏时提供恢复选项。定期备份能确保快速恢复近期的数据，降低因硬件故障、软件故障或网络攻击导致数据丢失的风险。可以配置备份服务器使其自动优化存储空间的使用并加快恢复时间。

替代数据中心是企业可以复制其IT基础设施和数据的备用设施。它们通过在地理位置不同的地点托管主要数据和应用程序的副本来提供额外的保护。在发生如自然灾害或重大技术故障等灾难的情况下，业务运营可以切换至替代数据中心，确保服务正常运营、数据保持完整。

十、自动化日常IT流程，将人为错误降至最低

将备份、更新和系统监控等日常IT任务进行自动化处理，对于保证效率和可靠性至关重要。自动化可以帮助将人为因素导致的错误最小化。例如，那些可能导致此次CrowdStrike更新中逻辑缺陷的错误。通过将日常IT流程自动化处理，组织可以确保更加一致地和可靠地开展系统管理。

自动化系统降低了人为错误的可能性，确保流程的一致性，并使IT人员能专注于更有战略性的任务。例如，自动化备份解决方案可以安排并执行定期备份，无需人员手动干预，确保了备份的及时性且全面性。同样地，自动化工具可以管理更新和补丁安装，无需持续监督即可保障系统的安全性和及时更新。

有效的网络安全流程和措施本可以显著减轻此次CrowdStrike宕机事件带来的影响。在大规模部署之前定期开展测试更新，可能会较早地识别出有缺陷的更新。实施我们已经讨论过的其他推荐做法也能阻止我们现在面临的状况。

重要的是要承认并非一切事情都是负面的。CrowdStrike公司在事件响应和快速沟通方面处理得非常好。希望这一事件可以作为一个经验教训，提醒企业优先考虑网络安全，因为即使是小问题也可能产生重大的连锁反应。通过反思CrowdStrike公司做得好的地方和可以改进的地方，组织可以加强自身的网络安全措施，防止类似的事件未来再次发生。