服务器挂了三天我才发现没人提醒:用 Prometheus 搭建自动化监控告警

张开发
2026/4/16 19:28:18 15 分钟阅读

分享文章

服务器挂了三天我才发现没人提醒:用 Prometheus 搭建自动化监控告警
前言事情得从上周二说起。我一台刚配置好的测试服务器在中午 12 点左右突然就访问不了了。不是网络断了也不是机房故障——是服务本身把内存吃满了进程全部挂掉。最尴尬的是这玩意儿居然还在持续占用 CPU只是没人知道而已。等到下午客户来问你那服务咋挂了我才意识到这问题已经持续了三个小时。更离谱的是监控没有。告警更没有。全靠客户帮我发现的。那次之后我就发誓再也不能这么被动了。折腾了一周终于把一套完整的监控方案搭起来了。用 Prometheus 监控服务器指标用 Alertmanager 发邮件告警配合 Node_Exporter 采集数据最后还用 cpolar 做了内网穿透外网随时能查看仪表盘。整个过程踩了无数坑Docker 端口映射不对、Alertmanager 配置写错、邮件服务一直收不到通知、cpolar 映射的域名死活访问不了……最后能跑起来纯属幸运值爆表。不过现在好了这套方案稳定运行了几天服务器 CPU、内存、磁盘、网络各项指标一目了然。内存超过 80% 会收到邮件CPU 负载过高会弹窗磁盘空间不足会打电话——哦不是发邮件。如果你也经历过服务器挂了三天才知道的痛那这套方案适合你。虽然配置起来有点繁琐但比起再被通知三次这些折腾还是值得的。1.在Centos7上安装Alertmanager在安装alertmanager前需要安装node_exporter和prometheus接下来跟我进入监控告警的世界吧去官网下载安装文件找到linux版下载下载完成后记住下载路径。创建alertmanager的目录mkdir-p/app/alertmanager进入到这个目录cd/app/alertmanager手动上传下载好的alertmanager文件。上传成功后解压tar-vxzfalertmanager-0.28.1.linux-amd64.tar.gz改名方便记忆mvalertmanager-0.28.1.linux-amd64 alertmanager将Altermanager配置为系统服务:cd/usr/lib/systemd/systemvimalertmanager.service[Unit]Descriptionhttps://prometheus.io[Service]Restarton-failureExecStart/app/alertmanager/alertmanager--config.file/app/alertmanager/alertmanager.yml[Install]WantedBymulti-user.target加载system文件启动alertmanager这个服务并设置开机启动systemctl daemon-reload systemctl start alertmanager.service systemctlenablealertmanager.service也可以后台手动启动nohup./alertmanager--config.filealertmanager.yml/app/alertmanager/alertmanager/alertmanager.out21catalertmanager.out启动成功后访问Altermanagerip9093默认端口为 9093。假如我们想用手机或者平板随时随地可以查看告警消息我们应该怎么做呢接下来cpolar就派上用场啦2.安装cpolar实现随时随地开发cpolar 可以将你本地电脑中的服务如 SSH、Web、数据库映射到公网。即使你在家里或外出时也可以通过公网地址连接回本地运行的开发环境。❤️以下是安装cpolar步骤使用一键脚本安装命令sudocurlhttps://get.cpolar.sh|sh安装完成后执行下方命令查看cpolar服务状态如图所示即为正常启动sudosystemctl status cpolarCpolar安装和成功启动服务后在浏览器上输入虚拟机主机IP加9200端口即:【http://192.168.42.101:9200】访问Cpolar管理界面使用Cpolar官网注册的账号登录,登录后即可看到cpolar web 配置界面,接下来在web 界面配置即可打开浏览器访问本地9200端口使用cpolar账户密码登录即可,登录后即可对隧道进行管理。3.配置公网地址登录cpolar web UI管理界面后,点击左侧仪表盘的隧道管理——创建隧道隧道名称可自定义本例使用了:alertmanager注意不要与已有的隧道名称重复协议http本地地址9093域名类型随机域名地区选择China Top创建成功后打开左侧在线隧道列表,可以看到刚刚通过创建隧道生成了公网地址接下来就可以在其他电脑或者移动端设备异地上使用地址访问。访问成功。4.在prometheus上配置alertmanager进入prometheus的配置文件加入alertmanager告警规则vi/app/prometheus/prometheus.yml加入以下内容后Prometheus可以通过这个公网地址4246d47e.r2.cpolar.top刚才用cpolar打通的公网地址也可以用localhost:9093访问到运行在本地9093端口的Alertmanager服务从而抓取系统指标。- targets:[4246d47e.r2.cpolar.top]labels: app:alertmanager这一步配置的作用是告诉 Prometheus当监控规则触发告警时应该把告警信息发送到哪个 Alertmanager 服务进行处理便于一会监控node_exporter也可以监控mysqld_exporter等等。alerting: alertmanagers: - static_configs: - targets:[4246d47e.r2.cpolar.top]重新启动prometheussystemctl restart prometheus抓取成功5.利用alertmanager来配置node_exporter告警在第四章节我们已经成功配置告警信息发送到alertmanager接下来我们来验证一下是否可以成功发送我们这里举例倘若node_exporter关闭则发送告警。node_exporter还可以监控主机的 CPU 使用率内存使用量文件系统用量等等。我们先改写prometheus的配置文件改以下内容vi/app/prometheus/promethues.yml进入到prometheus配置目录下写一个配置文件1.ymlvi/app/prometheus/1.ymlgroups: - name: node-alerts rules:# 实例宕机- alert: node_exporter实例宕机 expr: up{jobnode_exporter,instancelocalhost:9100}0for: 15s labels: severity: critical annotations: summary:实例 {{$labels.instance }} 已停止运行超过 15 秒description:作业 {{$labels.job }} 的实例 {{$labels.instance }} 无法抓取。- name: prometheus rules:# 实例宕机- alert: 实例宕机 expr: up{jobprometheus}0for: 15s labels: severity: critical annotations: summary:实例 {{$labels.instance }} 已停止运行超过 15 秒description:作业 {{$labels.job }} 的实例 {{$labels.instance }} 无法抓取。重启prometheussystemctl restart prometheus打开prometheus网页发现加入成功。接下来我们验证一下关闭node_exporter会不会告警systemctl stop node_exporter再次打开prometheus网页告警成功打开alertmanager网页我们发现那两条告警也显示成功。这样我们就成功配置prometheus告警啦6.使用Alertmanager发送服务器告警至QQ邮箱QQ 邮箱默认不允许外部应用直接使用密码登录SMTP服务器因此你需要获取一个授权码登录QQ 邮箱进入设置-账户。找到SMTP/IMAP/POP3/Exchange 服务开启SMTP 服务。开启后会提示你获取一个授权码。接下来我们进入alertmanager安装目录修改alertmanager配置文件alertmanager.ymlvi/app/alertmanager/alertmanager/alertmanager.yml添加以下内容来配置告警规则global: resolve_timeout: 5m smtp_from:你的QQ邮箱smtp_smarthost:smtp.qq.com:465smtp_auth_username:你的QQ邮箱smtp_auth_password:你的QQ邮箱授权码smtp_require_tls:falsesmtp_hello:qq.comroute: group_by:[alertname]group_wait: 5s group_interval: 5s repeat_interval: 5m receiver:emailreceivers: - name:emailemail_configs: - to:你的QQ邮箱send_resolved:true这样有告警消息就可以发送到QQ邮箱啦我们来验证一下配置有没有问题./alertmanager--config.filealertmanager.yml--log.leveldebug手动运行测试没报错即正确重启alertmanagersystemctl restart alertmanager systemctl status alertmanager登录邮箱查看node_exporter挂机是否发邮件接收到邮件说明我们配置正确这样我们就可以随时随地查看告警信息了7.保留固定公网地址使用cpolar为其配置二级子域名该地址为固定地址不会随机变化。点击左侧的预留选择保留二级子域名地区选择china Top然后设置一个二级子域名名称我这里演示使用的是alertmanager大家可以自定义。填写备注信息点击保留。登录cpolar web UI管理界面点击左侧仪表盘的隧道管理——隧道列表找到所要配置的隧道alertmanager点击右侧的编辑。修改隧道信息将保留成功的二级子域名配置到隧道中域名类型选择二级子域名Sub Domain填写保留成功的二级子域名地区: China Top点击更新更新完成后打开在线隧道列表此时可以看到随机的公网地址已经发生变化地址名称也变成了保留和固定的二级子域名名称。最后我们使用固定的公网地址在任意设备的浏览器中访问可以看到成功访问本地部署的alertmanager页面这样一个永久不会变化的二级子域名公网网址即设置好了。有了cpolar我们可以在任意一台服务器使用此alertmanager监控你的同事也可以一键监控是不是特别方便呢~结尾说真的这次折腾让我明白了一个道理监控不是可有可无的锦上添花而是运维的底线保障。这套方案的好处在于开源免费、社区成熟、扩展性强。哪怕你现在只是搭着玩玩以后业务多了也能无缝升级。最后提醒两点一是别把告警邮件发到个人邮箱容易漏二是记得定期查看仪表盘不然监控就形同虚设。如果你照着做遇到了问题欢迎留言讨论——毕竟我是踩过坑的人知道哪些地方会卡住。

更多文章