大模型之于网络运维的“双城记”:该以怎样的姿态面对AI新技术?

TechForWhat 2024-11-05 18:19:49

作者 | 由仪

编辑 | 葛覃

从万维网诞生的那天起,运维就随之而来,尤其在互联网的极大发展之后,用户数量和业务规模快速扩张,企业的网络运维就变得愈发复杂和繁琐,到了AI时代,企业的运维复杂度只会更高。

在这一过程中,网络运维技术也不断变化。早期企业的服务器数量不多,网络环境也相对简单,运维主要是做服务器的部署和变更,及时应对告警、排除隐患,保证整个系统的稳定运行即可,此时以人工运维和自动化脚本工具为主。

2010年左右,互联网业务形态需要线性增长的基础设施,企业购买服务器和网络资源已经捉襟见肘,不可能再去养一个庞大的运维队伍,既不经济也不现实,此时运维平台化成为趋势,此后AIOps开始萌芽。

可以看出,运维领域引入AI比大多数人想象的还要早,在大模型出现之前,AIOps受限于人工智能技术的泛化性,主要依赖预置指令,通过设计好的任务来完成一些运维工作。AIOps在2018年达到了第一波高潮,在 2020 到 2022 年间进入到相对低谷期,这和人工智能技术的发展趋势较为同步。

对于网络运维来说,AI时代——“这是最好的时代,也是最坏的时代。”业界将大模型视作AIOps领域更具势能的技术,但大模型也引入了新的不确定性。历次技术更替都是一场淘汰赛,有企业乘势而起,就一定有企业随潮而落,关键在于能否利用大模型革新己身。

一方面,大模型可以让运维领域“说人话”了。运维环境架构复杂、规模巨大,包含了各种多模态数据,AIOps工具的使用方法比较繁琐,使用体验不友好,大模型和此前AIOps技术的结合,可以实现问题排查与诊断、自动推荐故障预案,生成故障报告总结等。

另一方面,运维领域具备自身的专业知识,大模型进入到具体场景时,会出现缺乏特定的知识、无法深入分析告警之间的关联性、问答过程有长度限制、模型回答不稳定等问题。同时,大模型成本、技术应用门槛、数据安全等风险也制约着大模型在运维领域的落地。

网络运维大模型的必然与应然

网络运维是一个必不可少却又经常“背锅”的岗位,日常紧盯系统运行状态,还要做好预防性维护,7*24小时的业务稳定运行,离不开网络运维。

当警报响起或者到了业务重要节点时,那才真正是网络运维人的“至暗时刻”,早起贪黑是常态,穿梭在机房和办公区域之间,检查交换机、光纤网络、软件配置等,网络运维的复杂和低效,每一个人都心有戚戚然,却又无可奈何。

理所当然地,大模型代表着新的生产力,将其引入网络运维领域是必然,如果将其与同样火热的智能驾驶作类比,便能更清晰地看出大的趋势。

现实世界中,智能驾驶技术和产业的发展方兴未艾,数字世界中,大模型也在驱动网络迈向高阶自智。物理世界中的智能驾驶车辆,川流不息,数字世界中的网络,永不停歇。

时至今日,对于智能驾驶技术依然存在安全等方面的争议,但是为何全球还在坚定不移地发展智能驾驶?一言以蔽之,无论是物理世界的智能驾驶还是数字世界的网络自动驾驶,都是全球新一轮科技革命的一大制高点。

和所有新技术发展的历程相似,初期总是会遇到各种问题和阻碍,但是当越过技术奇点之后,革命性技术将彻底革新产业、经济的发展,大模型重构网络的过程遵循同样的道理,但所有远见者都选择尽早拥抱革命新技术,本质上就是“Now or Never”的选择题。

大模型并不是为了取代传统运维,相反,正是因为传统运维无法应对日益增长的基础设施复杂性,才更加呼唤大模型。

而应当如何具体而微的落地大模型,大家也有一些共性疑惑,大模型能给运维带来哪些收益,应用场景又有哪些技术挑战,大模型能在多大程度上“革命”运维工作。

先行者不犹豫

AI应用的效果,既取决于业务流是否有足够的数字化基础,也要看模型本身的能力。运维领域大多工作已经被自动化和数字化,今年2月,华为发布业界首个通信大模型应用——NetMaster,为网络运维领域的智能化转型提供了前提。

基于华为盘古大模型训练而成的NetMaster,集成了华为数据通信领域超过500亿语料和1万多名网络专家的经验,具备强大的语义理解能力。

仅有大模型还不够,企业希望高性价比、低门槛地使用运维大模型,华为向着客户方向再迈一大步。在今年9月的华为全联接大会2024上,面向企业发布了业界首个L4自动驾驶网络——星河AI自动驾驶网络解决方案。

该方案包括智能网元、数字孪生和智慧大脑三层架构,拆解星河AI自动驾驶网络解决方案,即可发现,华为回答了大模型之于网络运维的新命题,在迈进L4自动驾驶网络的企业中成为了先行者。

首先值得关注的是,智能化之前要工程化,尤其体现在获取高质量的运维数据层面。例如数据的持续标注和刷新,样本数据量少,数据的格式多样性等,如何采集不同的数据并进行识别、串联和融合分析,这是大模型能否获得知识的前提。

星河AI自动驾驶网络解决方案提供了智能网元能力,可实现毫秒级感知业务、流量、应用等全量数据,为整网智能化提供数据要素,大幅提升底层网络设备的处理效率。其次,当运维有了大模型之后,训练成本和人才等门槛一般比较高,需要专家来梳理业务数据,有了某个具体的运维方案后,能否产生实效或者至少不产生负面效果,需要持续迭代和验证。

星河AI自动驾驶网络解决方案提供了数字孪生能力,基于华为海量的实践,网络数字地图实现网络多维实时可视及在线实时仿真,轻量级运维试错方案加快网络运营的创新迭代。

最后是大模型的强项,理解用户的自然语言并将其转化为运维领域能实施的操作,这就涉及到Agent的打造。

这也依赖于长久积累和大量场景验证,要想让大模型如臂指使,海量工具和平台能力的积累必不可少,华为通信大模型通过自然语言精确理解用户意图,转化用户需求,按需调用各类场景化AI Agent,实现端到端网络的智能化。

大模型更像是一个“将军”,自然语言是媒介,运维领域的各类知识、能力、平台、工具、场景等则是军队,将军再强,没有部下也无计可施,队伍再硬,没有将军也是群龙无首,华为星河AI自动驾驶网络解决方案就是将运维领域的所有元素,用大模型联接在一起,真正实现L4级的自动驾驶网络。

张开双臂拥抱大模型为首的AI新技术

在智能化时代,越来越多的企业意识到,当下不是决定要不要张开双臂,拥抱以大模型为首的新技术,关键是比其他人更早去拥抱、去探索,华为在运维领域的实践,正对应业界所需。

网络是接数据、算力与智能应用的纽带,也是产业更新、经济发展的重要组成,自动驾驶网络正在驶向属于自己的奇点时刻。在不久的将来,率先拥抱大模型为首的新技术的一部分企业将先人一步,进入“最好的时代”,高度自智的网络将帮助企业进一步降本增效,让其专注于核心业务创新。

1 阅读:8

TechForWhat

简介:数字时代,技术当立。关注行业数字化转型实践与案例。