一切皆服务,AIOps也不例外

因为科技是阴天 2024-03-09 00:10:30

AIOps确实应该是服务。

炙热的AIOps还没有沸腾,但最后面临的那些挑战,终将被服务突破。华为全联接大会2021期间,华为NAIE AIOps服务正式商用。在此服务中,异构数据将被统一接入,且辅以了标准的数据治理组件;实践经验被沉淀到APP模板,且开箱即用;预测、检测,定位、执行等能力被细化为原子颗粒,且经过组合编排还可不断拓展;趋势、报表、网络关系等元素更是被可视化在大屏中,运维管理效率因此得到进一步提升。

AIOps这些年……

如果时间倒退20年,网络拓扑虽是那样清晰,但网络运维却需要人拉肩扛。在所有运维故障中,源自硬件、软件、网络、电力失常等的方面的问题只占20%,但流程失误方面因素却占40%,人员疏失方面问题也占到了40%。

此后,与云计算几乎同龄的DevOps,被视为传统ITIL和ITSM理念的颠覆,并逐步解决了流程失误和人员疏忽相关的80%问题。再此后,人工智能技术被引入运维领域,AIOps概念出现,更被视为企业级DevOps在运维侧的更高阶实现。

AIOps概念最早提出于2016年,这一时间点也很有讲究。在云原生概念出现后,企业IT架产生了革命性变化。运维工程师要同时看护数以万计虚实结合的IT设备,用户的每一次访问,也都或将调用数以百计的微服务。

AIOps就解决了这些问题。AIOps的基础是大数据和机器学习技术,其希望基于已有的运维数据(日志、监控信息、应用信息等),并通过机器学习的方式,进一步解决自动化运维中的桎梏问题。

此概念一经提出,就获得市场认可。根据Tractica/Ovum预测:到2025年,全球电信业对人工智能软件、硬件和服务的投资将达380亿美元,成为最大的AI应用市场。其中,网络/IT运营监控和管理将成为电信业最大的AI应用场景。2018~2025年累计投入达到183亿美元,占期间电信AI软件支出的44%。

AIOps的本质是服务

但挑战也同样存在。

2016年,Gartner预测4年后即2020年,AIOps的采用率将会达到50%,但在2019年,Gartner对AIOps的评价又相对客观:AIOps正处于从技术创新到万众期待顶点的过程中,之后还会经历一个低谷期,直到最终修成成果。

换言之,AIOps的前途虽是光明,但道路还略有曲折。其核心挑战在于,近年容器、微服务、无服务器等数字技术发展过快,开发与运维人员的知识体系,始终处于不停更新中。同时,AIOps赖以生存的数据与算法平台缺乏,也限制了AIOps的发展。

除此之外,也如Gartner报告显示:56%的公司表示,其组织面临的最大挑战是缺乏具有AI专业知识的员工。此外,运维人员需要人工编码开发不同场景的AI应用,这也既耗时也耗力,AI应用开发周期长。

正是基于此,华为定义中的AIOps不仅是解决方案,更是服务,而且首先是服务。通过AIOps服务,华为既要将30余年的网络运维经验、场景理解经验对外赋能,也要帮助合作伙伴降低AI应用开发门槛。

其实,早在2018年,华为就已提出自动驾驶网络的理念。其希望实现自动、自愈、自优的自治网络,使能网络业务的敏捷创新、极致体验和自动运维,并实现高效的资源和能源的利用。

作为“自动驾驶网络”的核心组件,华为NAIE AIOps服务最早出现在2019年4月,并于华为开发者大会2021期间发布公测,而此次华为全联接大会期间,华为NAIE AIOps服务则是正式发布商用。

是否看出些不同?过去3年中,华为AIOps服务每一次露出庐山一角,都会带来不同的惊喜,越感AIOps这事其实没那么难。而在正式发布的商用版中,其价值正如华为网络人工智能产品部AI模型与训练服务部部长王晶所说:“华为AIOps旨在降低ICT领域AI应用开发门槛,加速AI应用落地。华为也将致力于为合作伙伴提供一站式零编码开发平台,通过四大能力,将AI技术带入运维预测、检测、诊断、识别、优化等每个环节,赋能合作伙伴创新,共同建设智能运维生态。”

AIOps服务的五项核心能力

具体而言。

华为AIOps服务的能力体现在五个方面:支持跨厂家主流设备对接;分钟级预集成App部署;零编码APP开发;可视化大屏按需定制;高质量AI原子能力。

数据分析是AIOps的基础,数据采集则是开始AIOps的第一步。华为AIOps服务使这一步走的尤为扎实。其支持SFTP、Kafka、Rest等通用采集协议,支持华为30类网元、跨厂家100多种主流设备的自动对接,满足ICT网络领域端管云的数据采集需求。

当然,数据采集是为了数据分析,华为在此做到了“开箱即用”。目前,华为AIOps服务沉淀了10+开箱即用的智能APP模板,覆盖MBB/FBB、园区网络、数据中心网络、IT应用四大领域。这些APP模板均经过华为专家调优与局点验证,用户只需配置数据源,即可启动APP运行,这将AI应用的开发部署过程缩短到分钟级。

不仅如此。

华为AIOps服务还提供20+原子能力,这解决了AI场景方案难以快速复制的难题。或者说,原子化能力能力越丰富,可以解决的场景化问题就越多。目前,华为就提供了丰富的AIOps原子能力,可以覆盖运维全流程,包括预测、检测,定位、执行。

例如在预测环节,原子能力库提供流量预测,故障预测;在检测环节提供KPI异常检测,日志异常检测,CHR异常检测;在定位环节提供异常关联分析,事件聚合,根因定位;在执行环节提供修复措施推荐、领域知识图谱。

而基于丰富的原子能力,再辅以组合编排与DevOps能力,则可以将AI原子能力进行快速串联,这使得AIOps能力做到不断扩展。用户和伙伴均可通过简单地拖拽设计APP,进一步降低了AI应用开发门槛。

同时,华为AIOps服务还提供80多个2D/3D可视化组件,轻松DIY出包含趋势、报表、网络关系等元素的可视化大屏,通过自定义SQL灵活检索数据。业务结果快速呈现,满足项目复杂需求,有效提升运维管理效率。

防患于未然的预测性运维

运营商是网络最为庞大、复杂的企业,也是首批接受华为AIOps服务的企业。

2020年7月10日,某供应商出现DNS脚本的指向配置错误,事故一旦发生将影响8个城市2000多5G用户数据业务。华为核心网KPI异常检测APP,则提前5小时发现此问题,并发送告警短信,保障了5G高端用户上网体验。

这就是华为AIOps服务,防患于未然的预测性运维。而且不仅如此,此前运营商核心网络运维始终面临海量KPI指标,人工难以监控;传统呆板的静态阀值检测,存在漏报和误报,且人工调整周期长等挑战。

但在采用华为AIOps服务后,其可以基于AI/ML生成动态阈值,实现各种日常KPI监控场景;多指标的关联分析,分钟级内给出TopN根因指标;内置10余个电信领域模型参数,支持不同场景和局点泛化。

当然,这也只是华为AIOps服务在运营商领域的应用。截止目前,华为AIOps服务已经在110+现网局点规模应用,覆盖MBB/FBB、园区网络、数据中心、IT应用4个网络领域。帮助客户管理10万多个KPI,API调用次数每月达6亿次,每天处理1000万告警。

而凭借30多年网络经验和在AI领域的持续积累,华为更将持续为客户提供有竞争力、安全可信赖的AIOps服务,助力客户保障网络质量和用户体验,加快网络运维智能化转型。

作者 | 张戈 (公众号ID:TechECR)

【TechECR】关注科技企业生态体系建设,这里有思考、有观点;有点头咂嘴,也有会心一笑。创始人:张戈,曾任《商业伙伴》、《电脑商报》副总编,不码字,不写稿子、只输出有质感的文章。以生态合作为视角,研究IT产业18年,常年保持对ICT企业、IT方案商、IT渠道商保持高频度采访。同名专栏现已入驻各大主流媒体平台。合作联系:zg777zg@sina.com

目前已同步入驻:百家号、头条号、一点号、搜狐号、企鹅号等自媒体平台。

0 阅读:0

因为科技是阴天

简介:感谢大家的关注