您当前的位置:首页 > 电脑百科 > 网络技术 > 网络技术

彻底搞懂监控系统,使用Prometheus +Grafana搭建完应用监控系统

时间:2022-07-28 09:37:32  来源:  作者:章为忠

监控是运维系统的基础,我们衡量一个公司/部门的运维水平,看他们的监控系统就可以了。一个完善的监控系统可以提高应用的可用性和可靠性,在提供更优质服务的前提下,降低运维的投入和工作量,为用户带来更多的商业利益和客户体验。下面就带大家彻底搞懂监控系统,使用Prometheus +Grafana搭建完整的应用监控系统。

 

一、监控系统简介

1.1 什么是监控系统?

监控系统顾名思义就是监控服务器、应用系统以及其他第三方组件运行状态的系统。对于平台系统而言,监控系统就是我们的第三只眼,监控系统会实时跟踪应用平台的运行状态,如果有应用系统出现问题或是服务器内存爆满,我们通过监控系统就可以快速定位问题所在,甚至可以设置预警,对一些将要出现的问题进行提前预防处理,及时避免问题的发生。

 

1.2 监控系统的作用

监控是运维系统的基础,我们衡量一个公司/部门的运维水平,看他们的监控系统就可以了。监控系统的作用不言而喻,能帮我们快速定位问题,减少故障,容量规划,性能优化等。

1)定位故障:在发生故障时,我们可以通过查看监控系统的各项指标数据,辅助故障分析和定位。

2)减少故障率:对于即将可能产生的故障能够及时发出预警信息,做好提前预防处理。

3)容量规划:为服务器、中间件以及应用集群的容量规划提供数据支撑。

4)性能调优:JVM垃圾回收次数、接口响应时间、慢SQL等等都可以监控优化。

总而言之,一个完善的监控系统可以提高应用的可用性和可靠性,在提供更优质服务的前提下,降低运维的投入和工作量,为用户带来更多的商业利益和客户体验。

 

1.3 常见的监控对象和指标都有哪些?

应用系统的监控主要分为指标监控和日志监控两大部分:

  • 指标监控主要是对一定时间段内性能指标进行测量,然后再通过时间序列的方式,进行处理、存储和告警。
  • 日志监控则可以提供更详细的上下文信息,通常通过 ELK 技术栈来进行收集、索引和图形化展示。

指标监控可以说是系统监控最核心的功能。主要有服务器资源、应用监控、数据库中间件等。

  • 服务器资源监控:CPU使用率、内存使用率、磁盘使用率、磁盘读写的吞吐量、网络出入流量等等。
  • 数据库监控:TPS、QPS、数据库连接数、慢SQL、InnoDB缓冲池命中率等。
  • redis监控:内存使用率、缓存命中率、key值总数、Redis响应请求时间、客户端连接数、持久性指标等。
  • MQ消息监控:连接数、队列数、生产速率、消费速率、消息堆积量等等。
  • 应用监控:包括HTTP请求,JVM,线程池等。

 

1.4 监控系统的架构

一个完整的监控系统通常由数据采集、数据传输、数据存储、数据展示、监控告警等多个模块组成。

  • 数据采集,采集的方式有很多种,包括日志埋点进行采集,JMX标准接口输出监控指标,被监控对象提供REST API进行数据采集(如Hadoop、ES),系统命令行,统一的SDK进行侵入式的埋点和上报等。
  • 数据传输,将采集的数据以TCP、UDP或者HTTP协议的形式上报给监控系统,有主动Push模式,也有被动Pull模式。
  • 数据存储,有使用MySQL、Oracle等关系数据库存储的,也有使用时序数据库RRDTool、OpentTSDB、InfluxDB存储的,还有使用HBase存储的。
  • 数据展示,数据指标的图形化展示。
  • 监控告警,灵活的告警设置,以及支持邮件、短信、IM等多种通知通道。

 

二、当前流行的监控系统

目前大部分厂商都采用自研或是基于开源组件的方式搭建自己的监控平台。当然也有很多非常流行的开源监控系统,其中,最流行的莫过于Zabbix和Prometheus。下面就对这两个监控系统进行介绍,同时总结下各自的优劣势。

2.1 Zabbix

Zabbix 1998年诞生,核心组件采用C语言开发,Web端采用php开发。它属于老牌监控系统中的优秀代表,功能全面,使用广泛,是最优秀的监控解决方案之一。

 

2.1.1 Zabbix的优势

  • 产品成熟:由于诞生时间长且使用广泛,拥有丰富的文档资料以及各种开源的数据采集插件,能覆盖绝大部分监控场景。
  • 采集方式丰富:支持Agent、SNMP、JMX、SSH等多种采集方式,以及主动和被动的数据传输方式。

2.1.2 Zabbix的劣势

Zabbix需要在被监控主机上安装Agent,所有的数据都存在数据库里,产生的数据很大,瓶颈主要在数据库。

 

2.2 Prometheus

随着微服务架构和容器的兴起,Zabbix对容器监控显得力不从心。为解决监控容器的问题 Prometheus 应运而生。

Prometheus 是一套开源的系统监控报警框架,采用Go语言开发。得益于google与k8s的强力支持,自带云原生的光环,天然能够友好协作,使得Prometheus 在开源社区异常火爆。

 

2.2.1 Prometheus优点

(1)提供多维度数据模型和灵活的查询方式

通过将监控指标关联多个 tag,来将监控数据进行任意维度的组合,并且提供简单的 PromQL 查询方式,还提供 HTTP 查询接口,可以很方便地结合 Grafana 等 GUI 组件展示数据。

(2)基于时序数据库,支持服务器节点的本地存储

通过 Prometheus 自带的时序数据库,可以完成每秒千万级的数据存储;不仅如此,在保存大量历史数据的场景中,Prometheus 可以对接第三方时序数据库和 OpenTSDB 等。

(3)定义了开放指标数据标准

以基于 HTTP 的 Pull 方式采集时序数据,只有实现了Prometheus监控数据才可以被 Prometheus 采集、汇总、并支持 Push 方式向中间网关推送时序数据,能更加灵活地应对多种监控场景。

(4)支持通过静态文件配置和动态发现机制发现监控对象

自动完成数据采集。Prometheus 目前已经支持 Kube.NETes、etcd、Consul 等多种服务发现机制。

(5)易于维护

可以通过二进制文件直接启动,并且提供了容器化部署镜像。

(6)集群支持

支持数据的分区采样和集群部署,支持大规模集群监控。

2.2.2 Prometheus缺点

  • Prometheus 是基于 Metric 的监控,不适用于日志(Logs)、事件(Event)、调用链(Tracing)。
  • 由于Prometheus采用的是Pull模型拉取数据,意味着所有被监控的endpoint必须是可达的,需要合理规划网络的安全配置。
  • 指标众多,需进行适当裁剪。

 

2.3 综合对比

下表通过多维度展现了各自监控系统的优缺点:

 

综合来看,Zabbix 成熟度更高,上手更快,但灵活性较差。而且,监控数据的复杂度增加后,Zabbix 做进一步定制难度很高,即使做好了定制,也没法利用之前收集到的数据了(关系型数据库造成的问题)。

Prometheus 基本上是正相反,上手难度大一些,但由于定制灵活度高,数据也有更多的聚合可能,起步后的使用难度远小于 Zabbix。

如果监控的是物理机,用 Zabbix 没毛病,Zabbix 在传统监控系统中,尤其是在服务器相关监控方面,占据绝对优势;但如果是云环境的话,除非是 Zabbix 玩得非常溜,可以做各种定制,否则还是 Prometheus 吧,毕竟人家就是干这个的。

Prometheus 号称下一代监控系统,已经成为主导及容器监控方面的标配,并且在未来可见的时间内被广泛应用。

 

三、使用Prometheus+grafana搭建监控系统

前面,我们了解了一些监控系统的区别和优缺点,下面我们以Prometheus为例,带大家一步一步搭建监控系统。

3.1 下载

Prometheus需要下载prometheus(Prometheus主服务)、node_exporter(服务器监控)、mysqld_exporter(Mysql数据库监控-可选)、pushgateway(数据网关-可选)、alertmanager(告警组件-可选)

下载地址:
https://prometheus.io/download/

Grafana为数据展示界面,下载地址:
https://grafana.com/grafana/download

 

3.2 架构图

 

 

3.3 安装 Prometheus Server

Prometheus 的架构设计中,Prometheus Server 主要负责数据的收集,存储并且对外提供数据查询支持。下面开始安装Prometheus Server。

step1:首先,下载prometheus,并上传到服务器

# 解压到/usr/local/prometheus目录下:
tar -zxvf prometheus-2.37.0.linux-amd64.tar.gz -C /usr/local/prometheus
# 修改目录名:
cd /usr/local/prometheus
mv prometheus-2.37.0.linux-amd64 prometheus-2.37.0

setp2:启动prometheus Server 服务。prometheus启动非常简单,只需要一个命令即可,进入到
/usr/local/prometheus/prometheus-2.37.0后执行如下命令:

#进入prometheus目录
cd /usr/local/prometheus/prometheus-2.37.0
#执行启动脚本
./prometheus --web.enable-admin-api --config.file=prometheus.yml

step3:验证prometheus是否启动成功,prometheus默认端口为:9090,我们在浏览器中输入:
http://10.2.1.231:9090/graph,进入prometheus数据展示页面,说明prometheus启动成功。

 

3.4 安装 Node Exporter

实际的监控样本数据的由 Exporter 负责收集,如node_exporter 就是负责服务器的资源信息,同时提供了对外访问的HTTP服务地址(通常是/metrics)给prometheus拉取监控样本数据。下面开始安装node_exporter。

step1:首先,下载node_exporter,并上传到服务器

# 解压到/usr/local/prometheus目录下:
tar -zxvf node_exporter-1.3.1.linux-amd64.tar.gz -C /usr/local/prometheus
# 修改目录名:
cd /usr/local/prometheus
mv node_exporter-1.3.1.linux-amd64 node_exporter-1.3.1

step2:启动node_exporler,输入如下命令启动:

#node_exporter
cd /usr/local/prometheus/node_exporter-1.3.1
#执行启动命令,指定数据访问的url
./node_exporter --web.listen-address 10.2.1.231:9527

step3:验证node_exporler是否启动成功,我们在浏览器中输入上面指定的地址:
http://10.2.1.231:9527/metrics,可以看到当前 node_exporter 获取到的当前主机的所有监控数据。说明node_exporler启动成功。

 

step4:最后,配置prometheus,将新增加的node配置到prometheus。

修改prometheus-2.37.0 文件夹下的prometheus.yml文件。增加新的node配置,具体配置如下:

scrape_configs:
  # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
  - job_name: "prometheus"
    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.
    static_configs:
      - targets: ["localhost:9090"]
      
    # 采集node exporter监控数据
  - job_name: 'node'
    static_configs:
      - targets: ['10.2.1.231:9527']

修改完prometheus.yml 文件后,重新启动prometheus。再次访问prometheus数据展示页面,选择status | target,可以看到新的node已经添加进来了。

 

在Graph 页面,在查询框中输入: process_cpu_seconds_total

 

3.5 安装grafana

前面已经把prometheus和node exporter 安装并集成成功。prometheus虽然有自带的数据展示界面,但是不够全面也不直观。接下来集成grafana 完成数据展示。

下载地址:
https://grafana.com/grafana/download

step1:首先,下载Grafana,并上传到服务器。

# 下载grafana
wget https://dl.grafana.com/enterprise/release/grafana-enterprise-9.0.3.linux-amd64.tar.gz
# 解压到
tar -zxvf grafana-enterprise-9.0.3.linux-amd64.tar.gz -C /usr/local/prometheus
# 修改目录名:
cd /usr/local/prometheus
mv ngrafana-enterprise-9.0.3.linux-amd64 grafana-9.0.3

step2:启动Grafana,输入如下命令:

#grafana
cd /usr/local/prometheus/grafana-9.0.3/bin
#执行启动命令,指定数据访问的url
./grafana-server --homepath /usr/local/prometheus/grafana-9.0.3 web

step3:验证是否安装成功,Grafana默认端口:3000。在浏览器中输入:http://10.2.1.231:3000/ 输入默认账号密码:adminadmin。能正常进入Grafana,说明Grafana安装成功。

 

step4:配置prometheus数据源,点击 设置 | Data Sources ,按照操作添加prometheus数据源。

 

 

点击add data source,后选择prometheus数据源。

 

 

输入data source 的名字以及prometheus的地址:http://10.2.1.231:9090/ 后点击Save&Test 即可。

 

step5:创建仪表盘 Dashboard

Grafana 支持手动创建仪表盘 Dashboard 和自动导入Dashboard模板两种方式,手动一个个添加Dashboard 比较繁琐,Grafana 社区鼓励用户分享 Dashboard,通过
https://grafana.com/dashboards 网站,可以找到大量可直接使用的Dashboard模板。

Grafana 中所有的Dashboard 通过 JSON 进行共享,下载并且导入这些 JSON 文件,就可以直接使用这些已经定义好的 Dashboard。

 

选择自己喜欢的模板后,点击 Download JSON下载对应的json 文件。然后在Grafana系统中导入相应的json即可。

接下来回到Grafana页面,点击DashBoards|Import

 

选择之前下载好的json文件,导入即可。

 

点击Import后,我们就可以看到详细的服务器资源监控数据。如下图所示:

 

最后

以上,我们就把监控系统介绍完了,并使用Prometheus + Grafana 构建了一个初步的监控系统。

监控是运维系统的基础,在DevOps大行其道的今天,运维监控不再是运维工程师的工作,而是程序员和架构师的必备技能。希望大家能够熟练掌握。



Tags:监控系统   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
本文分享自华为云社区《华为云ECS服务器安装CentOS7.4镜像,部署GINX服务器、搭建物联网视频监控系统》,作者:DS小龙哥。在CentOS7.4服务器版本的环境下安装nginx服务器、配置文...【详细内容】
2022-10-28  Tags: 监控系统  点击:(2)  评论:(0)  加入收藏
这篇文章,我将对监控体系的基础知识、原理和架构做一次系统性整理,同时还会对几款最常用的开源监控产品做下介绍,以便大家选型时参考。内容包括3部分: 必知必会的监控基础知识主...【详细内容】
2022-09-09  Tags: 监控系统  点击:(83)  评论:(0)  加入收藏
监控是运维系统的基础,我们衡量一个公司/部门的运维水平,看他们的监控系统就可以了。一个完善的监控系统可以提高应用的可用性和可靠性,在提供更优质服务的前提下,降低运维的投...【详细内容】
2022-07-28  Tags: 监控系统  点击:(167)  评论:(0)  加入收藏
随着科技和经济的快速发展,视频监控系统已经成为安全防范系统的重要组成部分,它是一种防范能力较强的综合系统,具有监控画面实时显示,录像图象质量单路调节功能,快速检索,自动备份...【详细内容】
2022-07-11  Tags: 监控系统  点击:(225)  评论:(0)  加入收藏
一、一体化彩色CCD摄像机摄像机枪机,一般需要配置上相应的镜头才能应用。现在,有很多厂家,利用1/4英寸的CCD传感器,采用DSP内置了可以自动聚焦(Auto Focus)的16倍(如F1.6/f:3.9~63...【详细内容】
2022-06-23  Tags: 监控系统  点击:(109)  评论:(0)  加入收藏
Lepus是一套开源的数据库监控平台,目前已经支持MySQL、Oracle、PostgresQL、GreatSQL、MongoDB、Redis等数据库的基本监控和告警。Lepus无需在每台数据库服务器部署脚本或Age...【详细内容】
2022-06-17  Tags: 监控系统  点击:(89)  评论:(0)  加入收藏
该项目可以用来监控您家中的液化石油气泄漏、温度升高、环境温度、湿度和压力,尤其是全局仪表板中的厨房。 补给品: Arduino Nano 33 物联网 &times; 1 Seeed Studio Grove -...【详细内容】
2022-05-11  Tags: 监控系统  点击:(98)  评论:(0)  加入收藏
先来看一下效果图: 1.背景当个人有很多vps或者云服务器的时候,除了管理之外,监控系统的各项服务也是一件重要的事,最好监控系统能够一目了然的知道系统的整体情况,能够及时的提醒...【详细内容】
2022-03-03  Tags: 监控系统  点击:(141)  评论:(0)  加入收藏
监控系统硬盘怎么选择?常见的有绿盘、蓝盘、紫盘、黑盘、红盘分别代表了什么?有哪些不同呢?今天我们就来聊聊这个话题。在监控安装过程中,录像存储大多都是采用监控硬盘存储的。...【详细内容】
2021-09-22  Tags: 监控系统  点击:(1175)  评论:(0)  加入收藏
Prometheus 是一款基于时序数据库的开源监控告警系统,说起 Prometheus 则不得不提 SoundCloud,这是一个在线音乐分享的平台,类似于做视频分享的 YouTube,由于他们在微服务架构的...【详细内容】
2021-08-26  Tags: 监控系统  点击:(176)  评论:(0)  加入收藏
▌简易百科推荐
1.适用型号 该笔记适用于ME31-AXAX0404、ME31-AAAX2240、ME31-XAAX0440、ME31-XAXA0404等网络IO设备。2.功能说明2.1RS-485级联扩展ME31系列网络IO支持通过串口连接RTU设备...【详细内容】
2022-11-03  亿佰特物联网应用  搜狐号  Tags:网络IO   点击:(3)  评论:(0)  加入收藏
电脑不能上网是电脑常见故障之一,具体表现为上网不拨号,或者拨号后不能浏览网页,给工作和学习带来诸多不便,原因是多方面的,比如Modem故障、病毒、软件故障等等,今天跟大家分享电...【详细内容】
2022-11-02  现代快谈    Tags:无法上网   点击:(5)  评论:(0)  加入收藏
无线wifi覆盖的项目越来越多,在做wifi覆盖项目时经常会遇到一些问题,尤其是大中型无线覆盖,牵涉到信道规划,同频干扰,网络延时等实际问题。这里介绍关于无线WiFi覆盖的一些基本常...【详细内容】
2022-11-01  Pheenet菲尼特    Tags:WiFi   点击:(5)  评论:(0)  加入收藏
城市发展建设中,高层建筑越来越多,同时楼宇地下室也成为了人们生活中很重要的区域;生活中常用到的一些电表、水表、气表、水泵等都安装在地下室,需要在地下室对这类能耗数据进行...【详细内容】
2022-10-31  天拓四方智能制造   网易号  Tags:数据采集   点击:(7)  评论:(0)  加入收藏
网络标识:只要把IP和子网掩码的对应二进制位AND得到的结果就叫做网络标识。这种运算通常称为“与”。AND方法:0和1=0, 0和0=0 ,1和1=1。在不在同一网段就用网络标识,即“与”结...【详细内容】
2022-10-31  IP数据云    Tags:IP地址   点击:(5)  评论:(0)  加入收藏
前置知识:MAC地址在说到ARP协议之前,需要了解MAC地址,在OSI七层模型中,第三层是网络层,要解决的是下一跳机制确定的设备位置,具体来说就是网卡地址,MAC地址用于在网络中唯一...【详细内容】
2022-10-30  网络工程师阿龙    Tags:ARP   点击:(11)  评论:(0)  加入收藏
IPv4到IPv6的过渡技术主要有双栈协议,隧道技术和网络地址转换-协议地址转换技术三种技术方案,接下来中科三方将分三篇文章分别针对这三种技术的原理和应用场景做下简单介绍。...【详细内容】
2022-10-28  中科三方    Tags:IPv6   点击:(13)  评论:(0)  加入收藏
本文分享自华为云社区《华为云ECS服务器安装CentOS7.4镜像,部署GINX服务器、搭建物联网视频监控系统》,作者:DS小龙哥。在CentOS7.4服务器版本的环境下安装nginx服务器、配置文...【详细内容】
2022-10-28  华为云开发者联盟    Tags:视频监控   点击:(2)  评论:(0)  加入收藏
很多从事网络工作的小伙伴在组网时经常遇到各种各样的问题,下面我罗列出一些比较典型的问题来一起讨论。1)随着网络中部署的业务量不断增长,单条物理链路的带宽已不能满足正常...【详细内容】
2022-10-26  山里娃007  今日头条  Tags:组网   点击:(3)  评论:(0)  加入收藏
WLAN在使用过程中,有时候会发现无线终端(STA)在ping其他设备时,会出现连续丢包现象。这种情况下可能还伴随ping延时增大(几百毫秒),并导致一些应用感觉不是很好,例如下载速度变慢、...【详细内容】
2022-10-25  山里娃007  今日头条  Tags:丢包   点击:(11)  评论:(0)  加入收藏
站内最新
站内热门
站内头条