随着向现代和敏捷IT系统的转变,各种数字系统和解决方案产生的数据量也在增加。传统的IT管理解决方案需要重复繁琐的流程,不能跟上快速变化的现实需求并使IT团队面临严峻的挑战。智能运维作为一种手段,评估企业IT系统健康情况、检测异常情况、解决IT事件,甚至主动采取措施防止IT运营中断,从而帮助IT团队克服这些挑战。那么,智能运维是做什么的?能解决哪些问题?下面我们就来介绍。
智能运维是做什么的?
智能运维(AIOps)是使用AI算法,在海量运维数据中通过机器学习并汇总规则,进而作出决策的运维方式。智能运维可以快速处理数据,分析出有效的运维决策,执行自动化脚本以实现对系统的整体运维,从而有效运维大规模系统。
智能运维能解决哪些问题?
1、识别模式
智能运维AIops的一个常见的用途是减少告警的“干扰”,这些告警可能重复了其他警报,也可能反映了IT基础结构中的正常变化,还可能并不影响关键业务流程。
对运营数据的智能分析可以识别常见的模式,从而了解哪些模式是正常的,哪些可能预示着问题。比如用户登录时或季度财务结算期间的流量激增,这都是正常的。智能运维还将多个告警与一个潜在问题关联起来,还可以减少运维人员的工作量,加快问题的根本原因分析。
2、监控和跟踪
智能运维AIops还可以让运维人员更容易地跟踪IT环境中的变化、监视系统性能,并且更有效的管理IT环境。通过利用智能运维AIops,企业可以在不大幅增加员工的情况下承担额外的监控负载。
3、找出根本原因
智能运维AIops还有助于加速问题的根本原因分析,帮助确定问题存在于服务的哪个层——浏览器、数据库、代码,或者是一个内部网络问题?根因分析是指找到故障的根本原因,这是智能运维 AIOps 的重要研究方向。
原文:https://www.aiops.com/blog/practice/289.html