导读:随着无线网络的发展和5G的兴起,网络变得更加复杂,中兴通讯不断同运营商加强合作,加速网络智化技术创新和成果转化,通过网络进化、运维进化、运营进化三大进化助力运营商开源节流、提升效率,助力网络智能化转型。
无线网络关键性能指标(KPI)就犹如一把悬空之剑,让无数运维人和网优人为之费心劳神、殚精竭虑。KPI异动往往预示着网络某个层面出现问题,就好像我们人类出现发烧,往往可能是身体某处出现炎症一样。作为“网络医生”的运维网优人,每天面对成百上千KPI变化和大大小小的告警处理,很多时候疲于奔命,对KPI监控无法做到精确化和快速化,经常等到用户投诉了才发现KPI的异常,才启动处理流程,十分被动。出现这种情况,非运维网优专家不为也,很多时候是真不能也。比如传统KPI监控只能设置静态阈值,难以根据区域/场景以及时间段的不同差异进行区分,网络指标异动容易被波动淹没,人工统计KPI很难判断,即使发现问题,再“望、闻、问、切”,逐步定位病根,给出药方,这周期难免较长,而且对技术人员的技能要求也很高(“老专家”凸显价值啊)!自然,我们希望有个系统能实时监控网络KPI,对指标异动自动识别并定位引起异动的根因,那面对复杂网络也能应对自如了。
中兴无线智能运维系统借助AI人工智能,通过机器学习(ML:Machine Learning)和专家规则相结合来实现无线网络KPI的异常检测和故障诊断的自动化,相当于一个24小时运行的“网络健康监测和诊断仪”,为网络医生们提供分析数据和根因诊断。
要想解决问题,先要能发现问题。无线网络KPI随着网络制式及规模增长,应用场景差异及话务潮汐变化等,数据量变得非常庞大,在海量数据中及时发现KPI是正常波动还是异常变化,即使对“老专家”来说,也是一个艰巨的挑战。为降低各种KPI综合建模的难度,系统引入了基于结构特征的时间序列聚类方法。先通过傅立叶变换,将时间序列分为两大类,重要周期性和非重要周期性,再基于KPI序列中提取的数个特征,采用k均值算法对每个主类别中的时间序列进行聚类。KPI分类完成后,系统为每个KPI类别选择适当的时间序列模型,预测KPI在下个时间粒度的正常基线,如果网络KPI实时测量值超过了在线检测的基线,能够在首个时间粒度内及时发现,也避免因潮汐效应以及网络基础条件等差异导致的误报,漏报。
当系统检测到KPI异常时,需要快速下钻分析定位根因,以便于运维人员及时排除故障。智能运维系统采用基于规则的诊断模块和基于ML的诊断模块相结合的异常诊断方法,发挥中兴在无线领域几十年的经验积累及AI智能的自我学习能力,实现根因判断的快速收敛和高准确性,并适应多种复杂场景应用。
如下图所示,当检测到的异常是已定义的已知故障时,系统根据关联告警、操作日志、网络拓扑和专家规则库进行综合分析,给出根因判断和故障排查操作建议。
当检测到的异常是未知故障时,基于ML的诊断模块使用部分最小二乘回归算法(PLS:Partial Least Square)进行根因分析和定位,通过对可能原因进行贡献度分析,找出顶端的根计数器指标作为异常根因判定。
该系统建立在一个轻量化大数据底座上,与传统部署在集群上的大数据系统不同,轻量化底座所需的硬件资源很少,甚至可以单机运行,但同时保留了传统大数据系统的功能。这一特性可以使用户利用现有环境或在资源受限时也能部署大数据和AI相关功能,大大减少了用户网络智能化转型过程中的探索成本。同时,轻量化底座又有很好的可拓展性,可以从单机平滑拓展成分布式集群环境,且过程不影响业务的正常运行,可以将探索成果直接转化上线。
目前,该功能在山东联通和中兴通讯联合创新基地通过验证,现网8万小区成功接入无线网络智能运维平台,实现网络KPI异动实时监控和根因精准定位分析,大幅缩短KPI异动小区问题定位和解决时间。这也是业界首个采用AI算法洞察网络KPI异动,通过规则学习和机器学习快速准确定位问题根因,实现端到端闭环的解决方案。
在验证期间,某子网LTE的E-RAB建立成功率突然从99.9%下降到99.2%,系统异动根因检测功能很快发现并下钻分析本次异动的根因,快速定位到ID 208203的eNodeB,发现这个基站的一个小区的成功率指标下降到0,引发全网相应指标异常波动。通过告警关联分析,在KPI异动时间点,小区出现一次RRU异常导致的退服,后续的E-RAB空口建立指标全部超时失败,依据智能系统分析结果,快速得出RRU故障导致本次指标下降异动的结论,整个故障定位分析时间不到10分钟。而以前通过人工分析,一个有经验的工程技术人员通过网管统计KPI分析指标异动,关联告警、日志,下钻TopN小区直至找出问题所在,至少得2小时。
随着无线网络的发展和5G的兴起,网络变得更加复杂,中兴通讯不断同运营商加强合作,加速网络智化技术创新和成果转化,通过网络进化、运维进化、运营进化三大进化助力运营商开源节流、提升效率,助力网络智能化转型。