
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
包括 SRE(Site Reliability Engineer,网站可靠性工程师)在内的运维人员,作为软件成功运行的保障者,也会受到云原生技术和架构的深刻影响,特别是在技术栈、运维工具、 监控和错误处理、SLA 管理、AIOps 等方面,具体说明如下。
1. 技术栈
运维人员的技术栈改变,一方面是由于运维的软件采用了云原生技术栈构建而被动引起的,另一方面则是基于主动利用云原生技术和工具构建新的集成、监控、自动化、自愈、性能管理、高可用管理、安全管理、SLA 管理、IT 资产管理、事件管理、配置管理、变更管理、发布管理、补丁管理等工作和流程而带来的。这里典型的应用场景是利用 Kubernetes Operator 实施自动化的资源创建、交付和实例迁移操作。
2. 运维工具
云原生架构特别强调通过 IaC 和声明式运维来实现运维过程的高度自动化,即使是在拥有几百上千台机器的复杂分布式系统中,也可以自动化处理部署、升级、回滚、配置变更、扩 / 缩容等操作。而 GitOps 作为 IaC 的一个核心落地理念,不仅包含了对系统目标态的描述,而且贯穿了整个变更过程,既符合 DevOps 的透明化原则,也具备声明式运维的优点。
3. 监控和错误处理
从用户反馈和发现系统指标异常到采取多种运维手段确认、分析并解决问题和故障,是日常错误处理的重要工作范畴。可观测性强调了一次业务的执行能够从多个分布式服务、容器、虚拟主机、网络、BaaS 服务中获得日志、度量和追踪信息,从而提高监控能力和错误处理效率。云原生技术不需要运维人员从多个分布式节点收集和关联这些信息,而是由 Prometheus 和 Grafana 帮助完成多维度信息的关联性分析、告警和可视化展示。
4. SLA 管理
有了度量指标信息后,我们可以结合调用关系中得到的依赖关系,对业务服务和 PaaS 组件进行 SLA 管理,进而对全局的服务和 IT资产进行 SLA 管理。在没有类似于 Service Mesh 和可观测性这些基础设施和能力的情况下,传统的监控系统只能尽量从不同格式的日志中去获取这些度量指标信息。如果软件没有打印度量指标信息,监控系统就无法获取;同时,由于缺乏全链路的依赖关系,SLA 管理不能做到上下游的关联分析,从而导致系统不能第一时间感知某个服务或组件是否达成其 SLO(Service Level Objective,服务等级目标)。这些问题在云原生系统中得到了很好的解决,进而可以帮助运维人员提升系统的 SLA 管理水平。
5. AIOps
AIOps 是指在运维中利用机器学习和人工智能技术主动分析和预防故障,同时加快故障处理速度。当在大量业务服务和技术组件中实施可观测性操作后,系统将会产生大量的日志、度量和追踪数据,通过实时的机器学习和人工智能技术对这些数据进行分析,可以辅助变更前后异常检测、多个事件的关联性分析和“假阳性”消除、根因分析、自动化异常节点摘除和应急恢复等操作。
【免责声明】本文部分系转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与联系我们,我们会予以更改或删除相关文章,以保证您的权益!