AIOps一词是由著名的IT研究机构Gartner在2016年提出的,按照字面意思理解AIOps是一种基于算法的运维方式。如今,AIOps智能运维已经发展了多年,目前主要应用场景有异常告警、告警收敛、故障分析、趋势预测、异常检测、根因分析等。下面睿象云就来带您认识一下AIOps智能运维。
AIOps智能运维的两种方法:
传统的AIOps:传统的AIOps方法旨在减少系统告警,并利用机器学习模型来提供基于相关性的仪表板。这些系统通常难以扩展,这是由于底层ML引擎无法提供对问题根源的连续、实时的洞察。
现代AIOps:现代AIOps解决方案专为动态云和软件交付生命周期(SDLC)自动化而构建。现代AIOps将全堆栈可观察性与确定性AI引擎相结合,可以实时产生精确、连续和可操作的建议。这与使用概率模型推断系统状态的随机AIOps方法形成鲜明对比。只有确定性AIOps技术才能在整个企业开发生命周期中实现完全自动化的云操作。
为什么需要 AIOps?
现代应用程序由分布在许多云中的数百或数千个相互依赖的微服务构建而成的,从而导致了极其复杂的软件环境。这种复杂性导致理解这些系统的状态,尤其是在出现问题时,变得非常困难。而AIOps在于通过机器学习来进行运维数据的挖掘,能帮助人甚至代替人进行更有效和快速的决策。
传统运维面对海量的运维数据,要快速止损和进行决策,人工专家的分析判断往往需要花费数小时或更大,AIOps智能运维在企业的落地,能够提升业务系统的SLA,提升用户的体验,减小故障处理的时间等,带来业务的价值;并最终实现真正意义上的无人值守运维。
AIOps智能运维解决问题领域:
1、根据异常或与正常行为来识别系统问题;
2、预测某个指标的价值,防止中断或改善运营准备状态;
3、根据症状或文本描述对告警、事件或日志进行分组或聚类;
4、关联事件,减少 IT 数据中的噪音,并提取可操作的事件;
5、基于多个传感器或遥测数据导出应用程序或服务器运行状况;
6、识别相关的时间序列指标或症状,更快地进行根本原因推断;
7、查找类似事件,加快事件解决速度;
8、命名实体识别,丰富事件内容,加快事件处理速度;
9、基于事件属性预测事件分配组;
10、使用自然语言处理进行事件分类。
原文:https://www.aiops.com/blog/practice/296.html