广州都市报

您现在的位置: AIX > AIX评价 > 企业级运维监控系统体系化建设指南

企业级运维监控系统体系化建设指南

发布时间:2024/1/17 18:29:45   点击数:

监控系统的本质是通过发现故障、解决故障、预防故障来为了保障业务的稳定。而要想在企业内实现监控系统的体系化建设落地,需要从以下三个方面着手建设,分别是监控技术体系、监控指标体系、监控管理体系。

01.监控技术体系

一般来说,一个完整的监控系统,可以抽象为采集+数据+算子+告警四个基本模块,缺一不可。

1)采集

①采集方式

数据采集方式一般分为Agent模式(Agent-based)和非Agent模式(Agentless);

Agent模式包括各种插件采集、各种格式的脚本采集、主机日志采集、主机进程采集、APM探针和SDK等;

非Agent模式包括SNMP、IPMI/Redfish、SSH、JMX、ODBC/JDBC、Syslog、ICMP、HTTP(s)、TCP/UDP、SMTP等各种通用协议的数据采集。

②采集频率

采集频率一般有分秒级、分钟级之分,常用的采集频率为分钟级;同时也有基于条件触发式的随机采集或上报。

关于分钟级与秒级也有不少争论,常有人认为越快越好,认为越快就能更快发现问题。但是秒级的采集频率的增加,这对目标机器性能的影响也会增加,若因为数据采集导致业务性能本身出现问题,这就本末倒置了。而且,随着数据量加倍,存储成倍增加,计算量级指数型增长,带来的成本损耗可能远超秒级监控带来的好处。

在实际的应用场景中,需要思考使用秒级频率是否真的值得,是否能带来对应的业务价值。秒级监控是监控系统的一种必备的能力,但并不是所有的指标都需要秒级监控,需要挖掘真正的价值场景,而不是为了秒级而秒级,白白浪费资源,徒增维护成本。

③采集传输

采集传输按传输发起模式分类有主动采集Pull(拉)、被动接收Push(推);按传输链路分类有直连模式、Proxy传输。其中Proxy传输不仅能解决监控数据跨网传输的问题,还可以缓解监控节点数量过多导致出现的数据传输的瓶颈,用Proxy机制实现数据传输负载分流。

2)数据

①数据类型

监控的数据类型有指标(Metrics)、日志(Logs)、调用链(Traces)三种类型。指标数据是数值型的监控项,主要是通过维度来做标识;日志数据是字符型的数据,主要是从中找一些关键字信息来做监控;调用链数据反馈的是跟踪链路一个数据流转的过程,观察过程中的耗时性能是否正常。

由于数据类型不同,也衍生出了三类不同的监控系统。指标类型的监控,典型代表比如Zabbix、普罗米修斯。日志类常见的监控系统有ELK、Splunk等,主要

转载请注明:http://www.wangbaoying.com/bjbx/8881.html

网站简介 | 发布优势 | 服务条款 | 隐私保护 | 广告合作 | 合作伙伴 | 版权申明 | 网站地图

当前时间: