客户甩下一句话:问题搞不定,你就在机房跨年吧

菊厂基地打工仔 2024-08-02 01:06:49

我是张攀登,也是一名普通的维护工程师。从小,父母就常常跟我说:“世上无难事,只要肯攀登”,他们也就取了“攀登”作为我的名字,希望我在面对困难时不畏惧、奋勇直上。或许是这个名字有着天然的魔力,使我在学习上一直领先,并在西安交大毕业后免试进入了我司。

2016年,刚入职的时候,我的导师问我:“入职之后你将是无线维护一员了,你知道什么是维护吗?”我懵懂地回答:“维护应该就是负责维修坏件吧。”

直到进入项目组后,看到同事的工作时状态,我才意识到自己想得太简单了。原来接到网上问题求助,维护工程师需要立即展开分析、召集讨论、根因定位、答复闭环,一系列操作不能有任何耽搁,否则就会导致投诉甚至酿成事故,给客户带来不可挽回的损失。“这可真是高危职业啊!”我在心里默念。但看到前辈们这波行云流水的炫酷操作,我又觉得很钦佩:如果我也能这么从容应对就好了。

如今,通过工作的磨练我逐渐体会到,只要有一颗真诚为客户服务的心,时时站在客户的角度去思考问题、解决问题,那么,世界上确实没有什么难事。

如何打动最难搞定的客户

“他是中国区公认最难搞定的客户,多位一线运维工程师都败下阵了,你敢去吗?”主管问我。

“不就是找他交流问题嘛,有啥不敢去的。”我回答。

这段话我记得很清楚,那是在2017年9月的一天,也是我入职华为一周年。主管说,中国区S市联通一线投诉最近操作维护单板总是无法加载,初步判断是因为灰尘过大导致的器件短路,想让我出差去客户机房查看情况。

初生牛犊不怕虎,我接下了这个艰巨的任务。9月的S市,阴雨连绵,虽然带走了热气但也给人们增加了些许烦躁。客户机房位于郊外的一座四层楼内,周边有几处大型建筑工地因雨天也陷入了停滞状态,但从飘落的带有污浊的雨水看来,之前的施工肯定热火朝天。

在一线兄弟的引导下,我见到了大名鼎鼎的客户。他坐在办公桌前忙碌着,听到我做自我介绍,抬头打量了我一眼。可能是看我太年轻,比较青涩,觉得华为不重视,就又低下头忙自己的工作了,从头到尾没有说一句话。

我把分析报告拿给他看,仍是没有得到一丝回应。

我掐了一把大腿,努力保持冷静,重新拿起报告,耐心讲了问题定位的结论。他听完,竟然没有看我一眼,就绕过我走出去抽烟了。我当场就“石化了”。

面对着“暴击三连”,我的自信心也彻底瓦解了,觉得这事真是干不了。

“太欺负人了,讲报告也不听,我沟通不了。”我带着哭腔打电话给主管。

“你一直讲你想让他知道的东西,你问清楚他想要什么了吗?”主管缓缓地说。

我愣了一下。是啊,我一直在把我的观点加在他身上,但未真正了解到客户的诉求,报告中我只是讲了单板故障的原因,但是却没有讲为何故障,怎样消除故障,后续怎么防止此类问题发生。

后来,我也从周边的人了解到这位客户对技术很有追求,也很较真。慢慢的,我对自己的遭遇释怀了,同时坚定了要搞定这件事的决心:世上无难事,只要肯攀登!

接下来的时间里,我变换了策略,每天都会早早地到达客户办公室,狂刷“存在感”。他不理我,我就先和当地负责机房的兄弟沟通,仔细观察和记录机房的每套华为设备的情况,以及机房的布局、环境等。经过排查与分析,我发现,该机房位于郊外,且周边都在进行如火如荼的基建,而机房所有的窗户都采用通气扇,将室内与外界空气交换,因而将外部大量的灰尘带入了室内。

几天来,我都在加紧排查问题单板,每天下班前,会找本地运维兄弟给客户发当日进展。在这期间还有一个小的插曲,出发前我本预计攻关能在一周内结束,然后飞青海去女朋友家去订婚,可是一周过去了,事情仍没有解决,我只能周末飞过去办事,赶在周一早上按时到达客户办公室。恰好这件事被本地运维的兄弟偷偷说给了客户听。

慢慢的,客户对我的态度缓和了,早上见到我后主动和我打招呼,并问我一些关于控制器的技术知识,我也借机介绍了华为针对控制器做的一些可靠性的检测。

在这样看似与问题无关的交流中,我们之间的距离拉近了,开始讨论坏件的问题。针对机房存在隐患的单板,他希望通过清扫来挽救,但是,对于电子元器件暴力清扫会造成不可逆影响和更大的隐患。

为了拿出有力的说明,我搜集了历史上类似影响到业务的案例和各种论文资料,说明灰尘杂质对电子元器件的影响,并且结合暴力清扫可能对该设备造成的事故隐患,整理出了一份详细的报告,让他逐渐认可了我提供的更换风险单板的方案。

客户也认识到自身机房的问题,认可机房窗户应该是密闭的,通风应利用空调设备进行,表示要进行后续的改造。这也预示着这次出差之旅的结束。回首两周时光,我体会最深的就是,无论面对什么样的事情、接触多么难以沟通的客户,只要不放弃、踏踏实实去做,就一定会有收获。

“问题搞不定,你就在机房跨年吧”

还有一次定位问题的经历让我印象深刻。那是2018年临近春节的一个晚上,我接到了TAC的求助电话,C市新搬迁的BSC(基站控制器设备)的一块单板,下挂站点业务持续受损且无任何告警。代表处要求研发必须到现场定位,在春节前定位。

时间紧急任务重大,我主动请缨去现场支撑定位。第二天早上到达了C市,去了代表处,就被代表处领导一顿批:“你们做的什么产品可靠性?难道业务受损,一个告警都没有吗?要是定位不了问题,你就在客户机房跨年吧!”

我感觉到有点委屈,但是也只能低头认错,确实是我们的设备存在问题,我能够做的只有尽快定位根因,给客户一个可信的答复。

我怀着忐忑的心情,跟随一线同事去见客户。但客户的表现挺让我意外,她对于华为研发的到来感到很吃惊,对华为的办事效率表示了肯定,让我局促的心稍稍平复了一些。

了解清楚事情原委之后,客户陪我一起去了机房查看故障的BSC设备。的确,如反馈的一样,设备面板上没有任何的告警指示灯亮起,但是观察KPI就是存在持续恶化问题,影响到用户正常的数据业务。我们的控制器在相邻的两个槽位,配置了相同类型的单板,平时只有一块单板工作为主用,当故障时自动切换到另一块备用单板,防止业务受损。倒换单板后,我发现这个问题会恢复,但倒换回去又开始受损。

通过对已知信息的分析,我怀疑应该是主备单板的一个升主使能信号(控制单板作为主用还是备用的物理检测信号)异常,恢复手段只有更换单板。

分析完问题后,我立即找客户汇报并申请了备件,当天晚上,客户就和我一起对设备进行了操作。客户是一个雷厉风行的女性,拆网线、拔单板、插单板动作连贯一气呵成,根本没我什么事。原以为问题就能瞬间解决,可是单板更换后,我们观察了5分钟,业务还是没有恢复。又过了5分钟,仍然没有恢复。

这时候我心里有点着急了。不可能啊,我把日志分析得很清楚,不会错啊,肯定是信号异常导致,但是哪里出了问题呢?顿时,我的大脑一片空白。

没有了思路,我走出机房,想去外面安静思考一下。夜晚的寒风有些刺骨,也把我发懵的大脑也刺激醒了,我在脑中仔细回想了这个信号的检测原理。既然是主备单板升主信号,肯定也是互检的,本端确认无故障了,故障点只可能在另一块单板上。这就好比打电话,线路正常情况下,一方听不到声音了,可能是对方电话故障,也可能是自己电话有故障了。打定主意后,我立刻跑到机房和客户一起将另外一块单板进行了更换,并再做倒换。

持续观察半小时后,KPI一切正常,我长舒了一口气。看着正常运行的设备,客户却正色问道:“快过年了,你能保证春节期间华为设备不会再出现问题吗?”

“不能。但是我可以保证,只要华为设备有问题,随时会有华为人在。”我说。

听到我的回答,她的神色由严肃慢慢变得柔和,最后报之会心的一笑。

问题终于解决了,我紧绷了两天的神经也放松了下来,回到酒店,仍没有感觉到丝毫的困意。那一刻,我突然体会到了医务工作者救助病人的心情,唯有找到根因帮助客户真正解决问题,才是唯一的使命。

整理完报告向代表处做了汇报后,代表处的领导笑着说:“看来无法留住你跨年了。”在简单的告别仪式后,我带着对网络平安的祈求与问题解决后的喜悦,踏上了这一年的最后一个航班……

难忘的逆行

这两年,公司面对着更大的不确定性和更多的困难,作为维护人,越是在这个时刻,越是要如履薄冰。我们维护的网络责任重大,必须保持网络安全的危机感。特别是在2020年全球防疫的特殊时期,网络保障的重要性和复杂度越发凸显。如何第一时间解决客户网络问题,也是对我们的一大挑战。

2020年5月1日早上,当我抱着宝宝,带着媳妇、老妈兴冲冲走到车库,准备享受美好假期时,突然接到了8100开头的电话:“攀登,H市移动BSC设备刚刚又故障了一块单板,目前三个月已经累计故障了12块了,客户已经管理升级,并要求研发立刻到现场定位。”

三天前,热线就曾反馈H市移动连续三个月BSC6900设备故障了11块不同种类单板,需要分析故障根因并给出解决方案。但由于机房设备是由客户自行维护,之前更换了多块单板,定位信息早没了,于是我预约了最近故障的3块单板到研发。然而,5月1日当天单板的再次故障直接将这个问题推向了爆发点。

作为现网问题处理接口人,我虽然处理过类似问题,但对于这个突如其来的管理升级还是感到了前所未有的压力。H市曾属于疫情重灾区,感染人数一度超过1000人,虽然现在疫情管制结束,但风险依旧很高。另外对于管理升级问题有严格的时间要求,若无法在规定时间内定位闭环还需要继续升级处理,但假期召集专家投入并完成分析也有较大难度。

怎么办?事情越是紧急,越是要沉住气。

经过短暂思考,我对这个问题有了大致规划。我首先向主管汇报了问题以及客户的诉求,建议立即成立攻关团队,迅速到达公司对返板分析。而我作为问题第一接口人,立即动身前往H市支撑客户现场定位。出于安全考虑,主管一开始不赞成我去现场,可是考虑到客户的诉求,并得知H市机房所在区属于低风险区域后,最终答应了。

虽说目前疫情缓和了,但独自前往心里还是有些担心的,尤其是家人一致持反对意见,但我说完事情的缘由后,他们也逐渐接受了我的决定,前提是一定要做好严格的防护。于是次日早上,在他们的监督下,我戴了里外三层口罩,被喷了一身的消毒酒精,匆匆赶赴高铁站。

疫情下的高铁站冷冷清清,前往H市的高铁车厢空无一人。怀着忐忑的心情,我到达了H市。接待我的是网优部主任,为人和气,见到我有点激动,开口第一句话就是:“你是疫情管制解除后,第一个来我们市的华为研发人。”我听了很受鼓舞,也放松了一些。

简单了解前期情况后,我和客户一起进入了机房排查。机房比较整洁,温湿度等其它指标也均符合标准机房要求,问题会出现在哪儿呢?

正苦于没有思路时,机关的研发兄弟给我送来了“炮弹”——分析返板后发现,12块故障单板中有10块为电源模块故障,且都是电阻异常增大导致的。

为何只有H市机房的电源模块的阻值增大出现故障呢?会不会是这一批次存在的问题?我首先对单板器件选型、加工、失效率等信息进行分析,但是没有发现问题。

接着,我又对电阻的成分进行分析,发现电阻上含有大量的硫,硫与银发生反应生成不导电的硫化银,导致电阻值异常增大。蹊跷的是,正常的电子器件中是不可能含有硫的,单板上的硫从何而来呢?

此时,我又把怀疑点转向了机房,到底是哪里引进了硫元素?单板故障是从年初开始出现的,为什么之前没有故障呢?我思来想去,只有一个解释,那就是在这个时间,机房可能有过操作。

经过和客户的再三确认,得知2019年10月份客户曾因为友商设备问题对机房进行了整改,为了防止静电效应,在电源柜下面放置了黑色胶垫。经过确认,“元凶”就是这个胶垫!由于黑色胶垫的硫含量较高,在密闭空间中含硫胶垫不断挥发硫化气体导致板卡的腐蚀。

至此,经过5天的不懈努力,我们最终找到了问题的根因,并顺利解决了问题。细节真的是魔鬼!这个假期,虽然失去了陪伴家人的机会,但是听到客户对快速找到根因的赞许和认可,我为自己是一名华为人而骄傲。

一个维护工程师的收获和遗憾

四年的维护生涯,让我从一名应届毕业生成长为了控制器硬件平台的守护人。虽然维护工作看起来很平常,没有那么多的光鲜亮丽,没有假期,需要不分白天与黑夜的永久在线,但每一次看到客户满意的表情,我心里就有一种满满的成就感与荣誉感。不仅如此,维护工作锻炼了我的逻辑思维与综合处事的能力,也让我有了遇事不慌、沉着冷静的心态。

唯一的遗憾是不能常常陪伴家人,晚上家人也经常被电话惊醒、打扰,让我觉得充满歉意。但正因为有他们的支持,我才能一直保持昂扬的斗志,持续努力。

往事已矣,未来可期。虽有暂时的磨难,但阴霾终将过去,我渴望在这最好的年华里,和公司一同继续奋勇攀登,共渡难关。

0 阅读:0

菊厂基地打工仔

简介:感谢大家的关注