智能运维AIOps是由Gartner最早提出的,根据Gartner的说法,“AIOps是机器学习(ML)和数据科学在IT运营问题上的应用。那么,智能化运维到底是什么?智能化运维平台应该包括哪些功能?下面我们就来介绍。
智能化运维是什么?
智能运维AIOps结合了大数据和机器学习的功能,增强并取代了部分的T运营功能,包括可用性监测和性能监测、事件关联和分析以及IT服务管理和自动化”
智能化运维AIOps可将已有的运维数据(基础资源指标、日志、应用性能指标、业务可用性等),通过机器学习算法的方式来进一步进行综合分析,实现故障预测、容量预测、多维指标分析、故障根因定位、运维态势综合感知等能力。
智能化运维平台应该包括哪些功能?
智能化运维平台的功能主要包括:智能告警管理、业务可用性监测、智能监控、压力测试。
1、智能告警管理
智能告警管理平台可以快速接入各类告警信息(涵盖目前市面上主流的开源监控工具、云平台、商业化监控工具等),支持通过自动去重、规则压缩、算法降噪,实现告警降噪,智能告警管理平台帮助运维团队减少告警,避免告警风暴;同时通过分派、排班、通知等功能,快速实现告警流程化管理,帮助运维团队更快响应告警,恢复告警,提升告警管理能力。
2、业务可用性监测
业务可用性监测平台为用户提供主动探测,主动感知业务可用性监控,特别适用于需要全天候进行业务系统巡检的场景。该平台具有全面的节点分布,支持智能业务录制,以及实时业务监测场景模拟,可实时告警通知,实现跨地域复杂业务运行状态的连续监测。
3、智能监控
睿象云智能监控平台集操作系统监控(如 Ubuntu, CentOS, RedHat 等),和云主机监控(如 Amazon Linux),以及数据库监控(如 MySQL, MongoDB 等),和中间件监控(如 Tomcat, ActiveMQ 等)于一身。将所有性能指标作为时间序列数据来处理,提供对数据的聚合、过滤、分组、计算;方便运维人员来组合不同主机的数据,和发现数据之间的关系,以及组合出满足自身业务的抽象性能指标。
4、压力测试
睿象云云压力测试平台支持可视化业务脚本录制和手动快速创建、编辑、调试脚本,分钟级完成千万真实并发压测场景搭建,完备的性能数据分析,快速定位系统瓶颈,可结合应用性能管理(APM)模块实现高并发情况下业务系统性能瓶颈的快速定位。
原文:https://www.aiops.com/blog/practice/293.html