今日,唯品会控股有限责任公司(以下简称“唯品会”)又上热搜了,但原因竟是一条宕机故障处理公告。
《关于329机房宕机故障处理公告》【唯品会通-[2023]年-[019]号】显示,2023 年3月29日(00:14-12:01)),南沙IDC冷冻系统故障导致机房设备温度快速升高宕机,造成线上商城停止服务。此次南沙机房重大故障影响时间持续12个小时,导致公司业绩损失超亿元,影响客户达800多万,公司将此次故障判定为P0级故障。
同时,唯品会认为此次事故暴露出容灾应急预案和风险防范措施不到位,并决定对此次事件严肃处理。对应部门的直接管理者承担此次事故责任,基础平台部负责人xxx予以免职做相应处理。
最后,唯品会还认为工作不到位将导致功亏一篑,要求每一位员工都应当以329事件为戒。反思自己的日常工作,检视交付上的漏洞,梳理设计上的短板。勇于面对问题、主动反思和警醒,希望所有人以此为戒,痛定思痛,警钟长鸣!
宕机是台湾计算机术语,在大陆就叫当机,就是大家通常说的死机。
因为机房宕机损失超亿元,不得不说事故重大。
因为机房宕机而开除基础平台部负责人,有些网友认为处罚过重,但考虑到唯品会的过亿损失以及近12个小时的停机,这个处罚并不算过重,而且类似事件也有免职处罚。
不过329机房宕机故障也暴露出了唯品会在容灾设计和应急预案方面存在的不足,相关部门的风险防范意识不到位。作为电商企业,网络系统故障是常见的问题,比唯品会还出名的淘宝、京东、QQ、微信都曾网络瘫痪过。
2023年3月29日上午8点44分,腾讯微信团队发布信息称,今天凌晨部分用户使用微信、微信支付相关功能出现异常,经工程师抢修,系统正在逐步恢复,很抱歉给大家带来不便。
针对于该事件,在4月12日,工业和信息化部信息通信管理局听取腾讯公司关于“3・29”微信业务异常情况汇报,并强调“坚决避免重大安全生产事故”。
腾讯内部对此事件的评估为“一级事故”,并对几名高管进行了处理:腾讯高级执行副总裁、技术工程事业群总裁卢山和微信事业群副总裁周颢在内的管理者承担领导责任,被予以通报批评。技术工程事业群华南数据中心的两位总经理和总监被处以降级和免职处罚,微信事业群技术架构部的两位总监和组长当期绩效考核给予Underperform等评级。
这次可不是一两台机器,而是整个机房,明显没有做好异地容灾,无论是公司系统的架构师还是idc都有责任