再也不用熬夜写运维周报!OpenClaw+Prometheus MCP自动生成全维度运维报告

张开发
2026/4/13 10:17:39 15 分钟阅读

分享文章

再也不用熬夜写运维周报!OpenClaw+Prometheus MCP自动生成全维度运维报告
一、项目背景每个运维人的周一噩梦作为一个管着20台服务器、8个微服务集群的单人运维我最痛苦的事情就是每周一早上写运维周报。以前每次写周报都要花整整2个小时打开Grafana的12个面板截图CPU、内存、磁盘使用率统计上周的告警次数整理异常事件分析趋势还要写改进建议。数据分散在各个地方手动复制粘贴经常出错有一次把CPU使用率写成了900%被老板在周会上点名批评。我试过很多传统方案Grafana自带的报告只能生成固定格式的PDF不能分析异常和给出建议网上找的Python脚本只能拉取简单的指标需要自己写大量的PromQL维护成本极高付费运维平台太贵小团队根本用不起就在我快要放弃准备继续手动写报告的时候我发现了OpenClaw的MCPModel Context Protocol功能。它可以直接连接Prometheus自动调用PromQL查询数据分析异常生成结构化的运维报告。只用了10分钟配置我就实现了运维周报的完全自动化现在每周一早上9点我会准时收到一份完整、准确、带分析和建议的运维周报准确率高达95%。本文将分享我用OpenClawPrometheus MCP自动生成运维报告的完整过程所有配置均可直接复制不需要写一行代码5分钟就能搭建完成。二、技术栈选型全程零代码开箱即用数据完全本地处理AI助手OpenClaw v0.3.0支持MCP协议本地部署数据安全监控数据Prometheus 2.50工业标准时序数据库MCP服务prometheus/mcp-server官方提供自动封装Prometheus API报告格式Markdown易读易修改格式转换PandocMarkdown转PDF通知渠道企业微信机器人免费易用三、系统整体架构极简设计不需要写任何代码所有数据流转都由OpenClaw自动完成Node Exporter采集服务器指标Prometheus存储数据cAdvisor采集容器指标微服务自定义指标Prometheus MCP ServerOpenClaw AI助手自动调用PromQL查询数据AI分析异常与趋势生成Markdown运维报告Pandoc转换为PDF发送到企业微信群四、核心实战步骤4.1 第一步安装Prometheus MCP Server这是最关键的一步也是2026年最新的功能。官方提供了开箱即用的MCP Server只需要一行命令就能安装不需要写任何代码。首先确保你已经安装了Node.js 18然后执行npminstall-gprometheus/mcp-server4.2 第二步配置OpenClaw连接Prometheus编辑OpenClaw的MCP配置文件~/.openclaw/mcp.json添加Prometheus MCP Server{mcpServers:{prometheus:{command:npx,args:[-y,prometheus/mcp-server],env:{PROMETHEUS_URL:http://你的Prometheus地址:9090}}}}保存后重启OpenClaw Gatewayopenclaw gateway restart验证连接是否成功openclaw chat列出Prometheus中所有可用的指标如果OpenClaw返回了Prometheus中的指标列表说明连接成功。现在OpenClaw已经可以自动调用Prometheus的所有功能了包括执行PromQL查询、获取告警信息、查询时间序列数据等。4.3 第三步编写通用运维周报提示词模板这是整个系统的灵魂一个好的提示词可以让生成的报告专业、准确、符合你的需求。我总结了一个通用的提示词模板适用于大多数中小团队帮我生成一份上周{start_date} 至 {end_date}的运维周报要求 1. 系统概览统计所有服务器和服务的运行状态列出异常的服务 2. 资源使用情况 - 所有服务器的CPU、内存、磁盘使用率的平均值、最大值和P95值 - 找出资源使用率最高的3台服务器分析原因 3. 告警统计 - 统计上周所有告警的数量、级别和类型 - 列出Top 5最频繁的告警分析根本原因 4. 异常事件分析 - 详细描述上周发生的所有异常事件 - 说明处理过程和结果 - 给出预防措施 5. 趋势分析 - 对比上周和上上周的资源使用趋势 - 预测未来一周可能出现的问题 6. 下周计划 - 列出下周需要完成的运维工作 - 给出优先级 所有数据都从Prometheus中获取不要编造数据。报告语言简洁专业符合运维周报的格式。4.4 第四步自动生成并发送报告写一个简单的Shell脚本调用OpenClaw生成报告然后用Pandoc转换为PDF最后发送到企业微信#!/bin/bash# 计算日期START_DATE$(date-dlast monday%Y-%m-%d)END_DATE$(date-dsunday%Y-%m-%d)# 生成Markdown报告openclaw chat帮我生成一份上周$START_DATE至$END_DATE的运维周报按照之前的模板生成report.md# 转换为PDFpandoc report.md-oreport.pdf# 发送到企业微信curlhttps://qyapi.weixin.qq.com/cgi-bin/webhook/send?key你的企业微信机器人key\-HContent-Type: application/json\-d{ msgtype: file, file: { media_id: $(curl-Fmediareport.pdfhttps://qyapi.weixin.qq.com/cgi-bin/webhook/upload_media?key你的keytypefile|jq-r.media_id) } }4.5 第五步设置定时任务最后添加一个Linux定时任务每周一早上9点自动生成并发送报告crontab-e添加以下内容0 9 * * 1 /opt/auto_report.sh现在每周一早上9点你会准时在企业微信群里收到一份完整的运维周报再也不用手动写了五、高级功能扩展5.1 异常根因分析OpenClaw不仅能统计数据还能根据多个指标的关联关系自动分析异常的根本原因。比如当CPU使用率突然升高时它会自动查询对应的内存、磁盘IO、网络IO指标以及微服务的请求量和错误率综合分析得出结论。提示词扩展当发现异常时自动查询相关的指标分析根本原因。例如 - 如果CPU使用率高同时内存使用率也高分析是否是内存泄漏导致的 - 如果磁盘使用率高分析是哪个目录占用了最多的空间 - 如果服务响应时间变长分析是数据库慢查询还是网络问题5.2 自定义报告模板你可以根据自己团队的需求自定义报告的内容和格式。比如添加数据库监控、网络监控、安全监控等部分或者调整报告的风格和语气。5.3 历史报告对比OpenClaw可以自动读取历史报告对比不同时期的运维数据分析长期趋势提前发现潜在的问题。比如它可以对比过去3个月的磁盘使用率增长趋势预测什么时候磁盘会满提前发出预警。六、踩坑避坑指南这是我实际使用中总结的经验一定要看MCP版本必须匹配Prometheus MCP Server要求OpenClaw版本≥0.3.0低版本会出现连接失败的问题。控制数据量不要查询太长时间范围的数据否则OpenClaw分析会很慢。一般查询一周的数据最合适最多不要超过一个月。提示词要写得清晰明确告诉OpenClaw你需要哪些数据报告的格式是什么样的。不要写太笼统的提示词否则生成的报告可能不符合你的需求。设置Prometheus权限给MCP Server分配一个只读的Prometheus账号不要用管理员账号避免数据安全问题。过滤无关告警在Prometheus中过滤掉不重要的告警否则报告里会有太多噪音影响可读性。七、最终效果对比手动写报告和自动生成报告的核心指标对比指标手动写报告OpenClaw自动生成提升幅度每周写报告时间2小时0分钟100%数据准确率70%95%提升35%错误率30%5%降低83%报告完整性60%100%提升67%异常分析深度浅深大幅提升八、总结与展望以前我觉得运维周报是一件毫无价值但又不得不做的事情浪费了大量的时间和精力。但现在有了OpenClawPrometheus MCP我彻底解放了双手再也不用熬夜写周报了。AI不仅帮我完成了机械的数据统计工作还能进行深度的异常分析和趋势预测比我自己写的报告还要专业。这就是AI辅助运维的魅力它不是要替代运维人员而是要把我们从重复的、机械的工作中解放出来让我们有更多时间去做更有价值的架构设计和性能优化。未来我计划在这个系统的基础上加入日志分析和链路追踪的MCP服务让OpenClaw可以自动分析ELK日志和Jaeger链路数据实现故障的自动检测、自动定位和自动修复真正实现无人值守的智能运维。

更多文章