智能运维:“坐而论道”不如“以行促知”

因为科技是阴天 2024-03-09 00:10:29

过去6年的智能运维,多少有些像周星驰在《喜剧之王》中奉献的表情包。从兴奋到懵圈,再到拍掌叫好,星爷无缝切换了面部表情。智能运维大概也是如此,从备受追捧到冷静沉淀,再到理性回归,智能运维在不断地自我修正中,逐渐坐稳了“运维之王”的位置。

不断演进中的智能运维

“智能运维已处于理性回归阶段,而且国内进展要快于全球。”新华三集团副总裁、技术服务部总裁毕首文所说的“理性回归”其实并不容易,这是在深入应用场景后,才能表现出的“以价值为导向”。

新华三集团副总裁、技术服务部总裁毕首文

但早期的智能运维并不是这个模样。

2016年,Gartner首次提出智能运维(Algorithmic IT Operations)概念,其意指基于算法的IT运维。两年之后,“算法”逐渐延伸为“人工智能”,智能运维(AIOps)的英文全称也更改为Artificial Intelligence for IT Operations。

道理其实很简单。云原生成为压倒传统运维的最后一根稻草。此前,运维工程师还可以咬紧牙关,看护好手下的数十台交换机和服务器。但云原生彻底改变了IT基础设施架构,改变了应用系统开发模式。

“人肉运维”的模式,此时走到了崩溃的临界点。因为运维工程师无论如何也管不了数以百计的微服务,以及数以千计的容器,也梳理不出应用拓扑的来龙去脉,这完全超出了人力所及。

然而,纸上得来终觉浅,绝知此事要躬行。每过一段时间,智能运维都会冷静沉淀,修正自己跑偏的弯路。时至今日,其趋于成熟,也基本明确了如下趋势:

1)运维服务正在走出数据中心,以设备为中心的运维服务,正在被以应用为中心的运维取代;

2)整合平台能力,数据采集来自DEM、APM、NPMD等平台,但现有平台众多,且彼此孤立,企业希望通过智能运维平台进行统一管控;

3)增强数据监测能力,企业希望通过智能运维工具增强实时数据的分析和监测能力;

4)避免运维平台和应用场景两层皮现象,平台正在将运维服务能力原子化解构,并针对应用场景进行重新封装。

智能运维贯穿数字化转型

趋势虽如此,但实现路径却不同。新华三的实践就具有很强的目标方向感——“坐而论道”不如“以行促知”。其重点关注“三力一场景”,并以“数据+平台+场景”为核心框架,推动智能运维从解决问题导向转向以价值为导向。

早在2013年,新华三已开始形成相关能力积累,影响了一代人的“根叔的云图”、“标杆的神器”、“知了社区”就是那一时代的见证。

但真正立体的变化出现在2019年。就是在这一年,新华三推出“数字大脑”。在“数字大脑”的“4+N”架构中,统一运维即是4大体系之一。以U-Center统一运维平台驱动的智能运维,也成为数字化转型中不可或缺的一部分。

2020年,新华三又在业界率先推出首个在线智能分析预警平台iService服务数字中枢。2021年,新华三进一步打造推出业界首个全生命周期智能化管理系统——“金手指”智能工具集。金手指与iService两者协同,可提供端到端、全生命周期的运维服务。例如,ICT巡检工具已累计覆盖超过12万台设备,帮助用户提前发现超过10万个隐患。

以应用为导向

但这也只是平台和工具层面的创新。此时,智能运维的定义和实现路径还处于实践之中。

其实,智能运维概念形成初期,多被认为是“数据+算法”,再辅以传统运维模式,解决告警抑制、指标异常检测、交易多维分析、趋势预测、容量预测、根因定位和故障自愈等具体问题。

此后智能运维在实践中碰壁,又在碰壁中突破。用户的关注重点逐渐从单一应用场景,转向运维数据治理,并谋求建设统一运维平台,以及运维数据中台,且在此之上形成运维大数据态势平台。

由此可见,智能运维不可能一蹴而就,始终在摸索中前行。其虽有概念,但无定义;虽有现实价值,但无评估标准。“新华三是智能运维国标的重要参与企业之一。”毕首文所说的《信息技术服务 智能运维 第1部分:通用要求》,即解决了上述问题。其现实意义在于,推动了智能运维从以解决问题导向转向以价值为导向。传统运维关注网络丢包率、服务器CPU利用率、磁盘I/O等性能,但解决了上述问题,也不一定能解决“应用体验不佳”。

新华三参与国标制定,即是与用户共创新思维——以应用为导向、以价值为导向。也就是说,数字基础设施中的每一台设备、每一套系统,都将被设立指标体系,每一台设备与每一套系统间的联动,都将通过数据勾勒出来龙去脉。期间,如网站加载速度等应用指标超过阈值,即可顺藤摸瓜地迅速地定位故障点。

新华三的“三力一场景”

当然,新华三的与众不同,更在于从不“坐而论道”。“智能运维是以运维数据为基石,以平台能力为依托,以应用场景为导向。”毕首文所说的,即新华三“数据+平台+场景”的智能运维核心框架。

具体而言,新华三尤其关注“三力一场景”。其一,数字化能力,以组织变革为引领的运维数据治理能力,其二,自动化能力,基于数据的智能运维,并不会替代基于工具的自动运维,自动运维将成为智能运维的重要组成部分,其三,AI能力,新华三将以AI赋能ITSM,以AI赋能统一运维平台。

应用场景更是新华三智能运维的抓手,但其关注的场景未必狭小。“2000台服务器快速上线”、“一分钟内响应,五分钟定位,十分钟解决”都可能是新华三关注的场景。而对此,毕首文说:“智能运维不能飘在空中,运维平台建设也已经在抛弃宏观叙事状态,以痛点场景驱动的小步快跑模式,技术驱动和业务驱动的双轮并行,将更大地释放智能运维的价值。”

0 阅读:0

因为科技是阴天

简介:感谢大家的关注