2011年12月31日,我初入华为,误打误撞开始做起了产品维护,成为了一名正儿八经的“维护人”。
十年弹指一挥间,八万个小时的风雨历练,从职场小白听天书,到团队骨干攻难关,如今,我也算是一名计算的维护专家了。
2012年11月,我们正在开晨会,维护经理突然火急火燎地冲了进来,“大家暂停一下,黑龙江局点电源模块故障冒烟,客户机房消防系统预警,赶紧上线处理,如果再出问题触发机房消防系统,那后果不堪设想!”
领导们讨论后决定安排兄弟出差现场,前后方高效配合快速解决。虽然还是一名新兵,但我来华为之前做过2年的电源开发,从未到过一线的我感觉这是一次很好的锻炼机会,于是我主动请缨:“ 我可以搞定这个问题,让我去吧。”“新员工可以吗?”维护经理将信将疑看向PL,最终团队决定给我这个机会,同时家里也安排了两名电源专家支撑,确保问题顺利解决。
此时正值黑龙江天寒地冻的时节,来到大庆这座“石油之城”后的第一印象——真的好冷啊!风飕飕地刮到脸上像刀割一样,我裹紧衣服,顾不上寒冷,即刻赶往客户机房。
客户机房环境整洁,经过一番排查之后,我发现温湿度均满足要求,供电稳定,测试完电源模块的各项指标也都是正常。真是奇怪,到底哪里会造成电源模块异常呢?很快就到了下班时间,我依然一无所获,心里开始有点慌了。
这时,客户找到我:“明天再排查吧,我们今天凌晨两点要继续做供电切换。” “供电切换?”这个信息点瞬间引起了我的注意,会不会有这里面的原因?我灵机一动,小心翼翼地问道:“我今晚和你们一起做供电切换,再排查下我们的设备可以吗?”谁知道,客户想也没想就拒绝了我,“这是交流供电切换,和你们设备没关系,你明天再来吧。”
被拒绝后,我越想越不放心,今天忙活一圈下来一点线索都没有,我不能错过任何一个细节,“不行,我再去争取争取,留下来观察。”好在没多久,一线兄弟帮我去跟客户再次沟通,努力为我争取到了通宵参与测试的机会。
切换测试之前,我分析外部电源波动可能会导致电源模块异常,于是我在设备电源输入、电源模块内部都放置了仪器测试点。到了凌晨,一切准备工作都完成了,我一看马上凌晨两点了,供电切换即将启动,心里惴惴不安起来。
现场油机切换一启动,我突然发现,测试点中电源模块输入突增,顿时心头一紧,就是这问题所在啊!我赶紧对故障电源模块拆机进行分析,确实输入电容损坏了。原因找到了,我兴奋得连睡意都消散了七八成,这个通宵,值了!
第二天下午,我信心满满地向客户运维主管汇报:“咱们机房近期一直在做主备供电切换测试,切换到油机供电时电压不稳,电压过冲太大把电源模块的两个电容损坏了。不过我们分析电源已经保护,不会有其他影响。”正当我滔滔不绝时,运维主管不耐烦地打断我:“你的意思是我们自己的问题了?我的机房不能停电?停电了不能切换油机供电,否则你们产品就会损坏冒烟?”
我想到,需要让油机供电的厂家来看下,只要供电稳定我们的电源就不会有问题。刚想张口再解释一番,就被一线的同事拦住了,“我们再好好分析下,看看如何一起改进吧。”
可想而知,这次汇报结果并不好,我有些沮丧。但会后反复地思考琢磨,才理解一线同事的良苦用心。“以客户为中心”是我们的根基,作为研发,不能总对客户的使用习惯、特殊场景等方面提出要求,而是要及时对产品自身分析和改进,这才是最有效的对客户为中心地践行。经过电路原理设计分析和电源专家的测试,我联合专家制定了2套解决方案:一是通过输入侧加吸收电容,二是电源线长线退偶。两个方案都是在输入侧出现电压尖峰时把这个尖峰削平,电压过冲就非常小了。经过测试,两套方案都能解决问题,考虑到客户机房的可实施性,我们决定选择第二套方案。
第三天,我们进行正式汇报。客户侧安排了6名运维专家进行联合会议,我明白,这次汇报意义重大,一定要讲清楚来龙去脉和我们后续积极的方案措施,避免让客户对华为产品留下负面印象。
一开始,客户主管很严肃,“你开始讲吧,我们专家也有一些问题和你交流。”我开始讲解决方案,当我积极提出帮助客户优化输入配电柜,解决电源切换输入尖峰问题的各项举措时,客户神色缓和许多,看得出来对我们的方案很认可,进而让专家跟我们一起现场讨论了方案实施细节。
临走时,没想到运维主管还特地找到了我:”小伙子虽然年轻,但很不错啊,三天就把问题搞定了,也帮我们测试出油机电压的问题,华为技术确实值得信赖。”“感谢您的信任,我们一定会持续做好服务,让咱们的业务更平稳。”我受宠若惊,快言快语一口气说完,惹得大家都笑了起来。
从客户机房出来,一缕久违的阳光洒到了我的身上,客户这句话,让我在这冰天雪地里如沐春风。这次问题也让我认识到,除了产品自身质量要过硬,更重要的是要有站在客户角度思考的意识,设身处地帮助客户解决实际问题。
主动出击,自带“干粮”去印度
2016年初,随着几个平台的主力产品持续大量发货,网上存量增加和设备老化带来的风险呈指数级增长,“重点局”看护机制应运而生。该机制要求重点“局长”主动识别风险,通过主动清零片区风险,保障现网平安,为片区的维护结果负责。
重点局长通过自荐的方式产生,看着一个个“局长”当选,我心里很着急,暗暗下定决心,我不能一直都做问题的“奴隶”,我要主动去“抢局长”。
找到维护经理,刚准备一番毛遂自荐、慷慨陈词,结果维护经理直截了当地告诉我:“你来迟了,现在只剩印度局长一直未有人选,但印度挑战比较大,你能搞得定吗?”本来我就对新鲜的维护模式充满兴趣,很想去探索一番、找个机会施展拳脚,况且大家都是第一次“吃螃蟹”,有点挑战怕什么,我乐得一口答应下来。
顶着局长的头衔意味着更大的责任,赢得印度一线的信任是主动清零风险,实现主动维护的关键。我把印度最近两年的问题做了详细分析,敏感地发现,每到夏天,在印度的高温天气下,很多机房会出现单板异常重启,失效率成倍上升的问题。如果我能把这个问题解决了,也许就能打开一线的“心门”。我继续分析,觉得这个问题这么久都未能得到解决,是不是因为没有专业人员现场说服客户接受整改?正好自己有这方面的经验和技术专长,我应该能搞定!
我兴致勃勃地拨通了一线TD(技术总负责人)的电话:“XX单板每到夏季就频发高温故障,我有办法能帮客户解决这个问题。”没想到对方叹气,“这个老大难问题已经折腾了很多次,没有专业的指导客户无法接受整改方案。而且现在项目交付很急,忙完这一阵再一起想办法吧。”不啃下这块硬骨头以后还怎么开展工作,远程搞不定我就到现场搞,不拿下这个山头不归。
最后我自带“干粮”来到了印度。因为一线交付非常忙,只能我自己去机房。从印度得里飞到博帕尔后,局点在地图的位置让我傻眼了,远在城市郊区,周围是零零落落的小工厂,我下了个印度打车工具OLA,打不到车又找了一个摩的,印度式英语真的很难懂,我和摩的司机手脚并用比划半天,最后依靠手机里Google翻译几经周折终于到了站点。
远在郊区的站点机房
可能这个问题真的伤透了客户,站点的客户主管很冷漠地告诉我:“We have no problem in the equipment room. We only give you 10 minutes to enter the equipment room.(我们的机房没有任何问题,我只给你们十分钟。)”
时间宝贵,进机房后我们马上展开排查,机房温度太高,机框入风口温度部分超过40℃,和我的预期一致,之前客户反馈过多次都没有这个关键信息。“这个机框入风口离冷风出口太远,温度太高,需要加冷风口;单板里面有积灰,内部温度肯定更高,需要拆除出风口防尘网;这个区域温度高,应该是超过设计规格需要测量温度。”我抓紧这很短的时间,给客户主管讲了问题和整改方案,我的专业打动了客户,他从一开始的拒绝到慢慢开始点头,最后甚至叫所有维护工程师都过来听。
不知不觉1个多小时过去了,客户对我们的现场排查结果非常满意,测试结果符合预期,客户给我竖了大拇指并当场决策先整改一个机房环境。我帮助客户一起制定好机房的整改方案,新增的空调被紧急拉到现场布置到位;通过将设备前的实心瓷砖换成带孔的钢地板,增加了设备前冷风出口;同时拆除了出口的防尘网,阻塞空调风道的线缆被重新梳理;一项项措施落地后,大部分热点局机房温度降到25℃左右,经过3个月观察,XX单板的失效率改善了60%以上。
我的努力被一线同事和客户看在眼里,走之前一线TD告诉我:“客户对华为研发很满意,非常专业,你是我们值得信赖的后盾。”离开时一线服务经理邀请我和本地员工一起聚餐交流,还送了精美的礼品。我提出的各项主动维护工作印度一线兄弟都非常重视,一起努力闭环各平台多项事故风险,帮助客户打造出一流的平安网络,赢得客户信赖。
智能运维,让维护更轻松
2018年我加入计算产业。FusionServer(计算服务器产品)作为计算产业的压舱石,是一个开放的生态,客户群体多样复杂,有运维技术精湛的一流运营商,有设备可靠性要求极高的“金融大鳄”,还有只做上层业务对设备零维护的小企业。团队要面对500多万的现网存量,每年十几万个网上问题单……
“Welcome to join the conference.”伴随着这句熟悉的机器女声,大家在工位前开始了忙碌的一天,从早到晚,电话铃声、敲击键盘声此起彼伏,不绝于耳,往往电脑前一坐就是一整天,甚至夜里也得爬起来应付各种问题——前半夜电话响了:”兄弟,E9000变更失败,网络断了,帮忙看看吧。”接着后半夜电话又来了:”兄弟,备件编码查询不到,再帮忙看看是怎么回事。”
初期,十几个人的团队聚餐,永远聚不齐,大家不是在出差,就是在会议中。“我们团队聚餐多省事,都不需要订两桌,能凑齐一桌就很不错,哈哈。”谁能知道玩笑背后,其实也藏着很多无奈。
那时候披星戴月投入工作的我也无暇顾及家中,我的妻子承担了更多家庭的重担。我常常在回家的路上反思自己,接手西安维护团队快一年,老带新也形成了梯队,为何还干的这么累,我们的出路到底在哪里?我开始不断地思考解决之策,不能再这样下去了。
这天,组内喜欢锻炼的兄弟悄悄找到我,小心翼翼地问道:“周末要和朋友去爬山,到时候可能手机信号不太好,会不会有什么影响?”听到这句话,我心里一下子难受起来。FusionServer作为计算产业算力的基础,现网产品存量多,增长快,以当前的状态肯定无法应对业务的持续增长,“堆人”战术不可能长久,我下定决心,要更好地做维护,必须做出改变。
首先我建立起了轮换值班制,终结了曾经有些兄弟“7x24小时连环call”的历史,更新后每晚或周末轮流会有专人值班、专人响应,大家下班再也不用持续紧绷一根弦,担心随时被呼起来或者漏接电话了。
其次提升运维效率,缩短问题处理路径。网上问题经典案例库上网,组织TAC(技术支持中心)开展产品知识赋能。期间也通过各类激励奖项的设置,牵引大家主动当责。一段时间过去,有同事反馈道:“去年每个月我都需要处理50多个问题,现在给TAC赋能后,每个月升到我这的问题只有30多个,可见大家的能力得到了提升,很有成效。”团队腾出时间后,也开始有更多精力主动联合一线兄弟帮客户解决性能问题了。
在产品质量改进上,我们也开始进行“三板斧”改革——每发现一个产品缺陷均需要提DTS(缺陷跟踪系统)单;每发现一个共性问题,均需组织举一反三横向排查和设计测试基线提取;每发现一个流程不规范的地方,均要组织讨论并发布针对性的微流程。通过质量改进的网上新增产品缺陷问题连年改进50%以上,质量好了问题自然就少了。
最后开启智能运维,从网上问题自动一键建单,提升日常工作效率。通过智能诊断进行风险预警,点对点进行风险清零,主动运维数字化可视。
前几天我老婆还给我感慨道:“感觉你们现在状态挺好,这次组织团建活动40多个人都去了,大家看起来都是活力满满,看来你的变革做得不错嘛!”
是啊,想起之前团队规模小的时候连十几个人聚餐都没齐过,现在的氛围真的好太多了。经过两年的努力,我们终于走上了智能化,打造出“计算智能运维一体化战车”。随着FusionServer累计发货增长,千万级存量近在眼前。而我们,一定会走出一条不一样的运维之路。
有时候觉得八万小时很短,和兄弟们并肩作战攻克难关,在客户现场获得认可,为世界杯、奥运会等大赛成功保障,这一幕幕仿佛就在昨天;而有时候,我又觉得八万小时又很长,我从初出茅庐的维护小白,一步步成长为一名维护老兵,我曾哭过想要放弃,也曾笑过为了梦想坚持。维护岗位就像一杯老酒,刚开始觉得他很“烈”难以驾驭,但随着知识和技能的不断储备,越来越觉得它馥郁香醇。 八万小时不是终点,我愿意在维护这条路上继续走下去,让这杯老酒香飘万里,浓郁百年,也相信计算产业能够蒸蒸日上,鹏程万里!