什么叫dataops？

时间：2023-11-30 本站点击：0

sre是什么意思?

SRE是指Site Reliability Engineer (网站可靠性工程师)。他是软件工程师和系统管理员的结合，一个SRE工程师基本上需要掌握很多知识：算法，数据结构，编程能力，网络编程，分布式系统，可扩展架构，故障排除。

SRE起源于国外大型互联网公司，直接掌管着互联网公司的机器和服务，保证网站不宕机是他们的使命。SRE基本是从软件研发工程师转型，有很强的编程算法能力，同时具备系统管理员的技能，熟悉网络架构等，是一个要求非常高的职业。

工作内容

1、指导程序员的工作。

2、参与软件工程系统的设计、开发、测试等过程。

3 、协助工程管理人保证项目的质量。

4 、负责工程中主要功能的代码实现。

5 、解决工程中的关键问题和技术难题。

6 、协调各个程序员的工作，并能与其它软件工程师协作工作。

7、还要编写各种各样的软件说明书，如：需求说明书，概要说明书等。

8、考试科目工程师是中级职称，考试的题目包括了计算机体系结构、软件工程、数据库、数据结构、编译原理等计算机学科的基础课程。

AIOps是什么？

AIOps，顾名思义是将AI赋能于IT运维管理。国际权威咨询机构Gartner在2016年的报告里首次提出AIOps的概念。

传统的IT运维工作，大多是借助监控软件查看数据，并依赖运维人员的经验进行根因定位和排障。有了AI的加持后，可以借助AI算法提前发现数据中的异常，并通过数据串联锁定可能根因，大大缩短故障处理时间、提高运维效率。

经过多年来的发展，越来越多的大中型企业投入智能运维AIOps的部署，以应对企业数字化转型带来的数据量暴增、系统架构复杂带来的运维挑战。

Gartner在其2022年的AIOps报告中也指出：Yes, There is no doubt: There is no future of IT operations that does not include AIOps. 毫无疑问，不包含AIOps的IT运维不会有未来。

相信在不久的将来，传统运维将渐渐被智能运维AIOps所替代。

通常，AIOps智能运维系统包含这几个功能模块：

有人知道智能运维是什么？

作为企业数字化转型的重要手段，IT运维效率的高低会直接影响到业务的正常运转，业务数字化的加剧会造成严重的运维之殇，发现问题、根因定位、数据治理和运营分析都变得十分困难，越来越难以满足当前主动运营的要求。

智能运维是一种全新的数字化运维能力，也将是数字化转型的必备能力。智能运维相对于传统运维模式而言，能够在运维数据治理、业务数字化风险、运维人力成本和业务侧影响力四个方面有本质的效能提升。

sre是什么意思

sre即运维开发，它为什么会诞生呢？

原因一：企业成本的增长同用户的增长不成线性变化。但是随着系统的复杂度提升，组建越来越多，用户的流量压力也越来越大，相关的变更也会越来越多，各模块之间的变更顺序也会越来越复杂。在这样的情况下，单纯的靠运维人力的数量提升无法满足业务的发展需求，而且会提升企业的成本；

原因二：传统的研发团队和运维团队天然具有冲突。公司的IT人员的配置：研发（Dev）和运维（Ops），研发部门聚焦在快速构建和快速发布；运维部门关注的是如何避免发生故障，从目标上讲就是矛盾的。且随着 IT 技术的发展，对 IT 从业者的要求也越来越高，既要懂得底层系统，也要懂得数据算法，同时对主流技术还要快速追赶，满足这样要求的人才太少；

原因三：生产工具为适配生产力发展的必然产物。为了提高IT行业的整体效率和质量，使得从手工运维时代，逐渐过度到脚本工具运维，在发展到平台数据运维，再到平台软件运维，在发展到智能自动化运维。通过一系列手段、工具、理念的进步，将 Ops 技术发展到 DevOps、DataOps、AIOps 等；

智能运维是什么？

得益于IT外包服务的发达，现在的运维已经不包括搬机器上架、接网线、安装操作系统等基础工作，运维人员一般会从一台已安装好指定版本的操作系统、分配好IP地址和账号的服务器入手，工作范围大致包括：服务器管理（操作系统层面，比如重启、下线）、软件包管理、代码上下线、日志管理和分析、监控（区分系统、业务）和告警、流量管理（分发、转移、降级、限流等），以及一些日常的优化、故障排查等。

随着业务的发展、服务器规模的扩大，才及云化（公有云和混合云）、虚拟化的逐步落实，运维工作就扩展到了容量管理、弹性（自动化）扩缩容、安全管理，以及（引入各种容器、开源框架带来的复杂度提高而导致的）故障分析和定位等范围。

听上去每一类工作都不简单。不过，好在这些领域都有成熟的解决方案、开源软件和系统，运维工作的重点就是如何应用好这些工具来解决问题。

传统的运维工作经过不断发展（服务器规模的不断扩大），大致经历了人工、工具和自动化、平台化和智能运维（AIOps）几个阶段。这里的AIOps不是指Artificial Intelligence for IT Operations，而是指Algorithmic IT Operations（基于Gartner的定义标准）。

基于算法的IT运维，能利用数据和算法提高运维的自动化程度和效率，比如将其用于告警收敛和合并、Root分析、关联分析、容量评估、自动扩缩容等运维工作中。

在Monitoring（监控）、Service Desk（服务台）、Automation（自动化）之上，利用大数据和机器学习持续优化，用机器智能扩展人类的能力极限，这就是智能运维的实质含义。

智能运维具体的落地方式，各团队也都在摸索中，较早见效的是在异常检测、故障分析和定位（有赖于业务系统标准化的推进）等方面的应用。智能运维平台逻辑架构如图所示。

智能运维平台逻辑架构图

智能运维决不是一个跳跃发展的过程，而是一个长期演进的系统，其根基还是运维自动化、监控、数据收集、分析和处理等具体的工程。人们很容易忽略智能运维在工程上的投入，认为只要有算法就可以了，其实工程能力和算法能力在这里同样重要。

智能运维需要解决的问题有：海量数据存储、分析、处理，多维度，多数据源，信息过载，复杂业务模型下的故障定位。这些难题是否会随着智能运维的深入应用而得到一定程度的解决呢？我们会在下一篇文章中逐步展开这些问题，并提供一些解决方案。

本文选自《智能运维：从0搭建大规模分布式AIOps系统》，作者彭冬、朱伟、刘俊等，电子工业出版社2018年7月出版。

本书结合大企业的智能运维实践，全面完整地介绍智能运维的技术体系，让读者更加了解运维技术的现状和发展。同时，帮助运维工程师在一定程度上了解机器学习的常见算法模型，以及如何将它们应用到运维工作中。