涨薪技术|Prometheus监控4个黄金指标和USE方法

张开发
2026/4/13 18:03:42 15 分钟阅读

分享文章

涨薪技术|Prometheus监控4个黄金指标和USE方法
4个黄金指标Four Golden Signals是Google针对大量分布式监控的经验总结4个黄金指标可以在服务级别帮助衡量终端用户体验、服务中断、业务影响等层面的问题。主要关注与以下四种类型的指标延迟通讯量错误以及饱和度1)延迟服务请求所需时间记录用户所有请求所需的时间重点是要区分成功请求的延迟时间和失败请求的延迟时间。 例如在数据库或者其他关键祸端服务异常触发HTTP 500的情况下用户也可能会很快得到请求失败的响应内容如果不加区分计算这些请求的延迟可能导致计算结果与实际结果产生巨大的差异。除此以外在微服务中通常提倡“快速失败”开发人员需要特别注意这些延迟较大的错误因为这些缓慢的错误会明显影响系统的性能因此追踪这些错误的延迟也是非常重要的。2)通讯量监控当前系统的流量用于衡量服务的容量需求流量对于不同类型的系统而言可能代表不同的含义。例如在HTTP REST API中, 流量通常是每秒HTTP请求数;3)错误监控当前系统所有发生的错误请求衡量当前系统错误发生的速率对于失败而言有些是显式的(比如, HTTP 500错误)而有些是隐式(比如HTTP响应200但实际业务流程依然是失败的)。对于一些显式的错误如HTTP 500可以通过在负载均衡器(如Nginx)上进行捕获而对于一些系统内部的异常则可能需要直接从服务中添加钩子统计并进行获取。4)饱和度衡量当前服务的饱和度主要强调最能影响服务状态的受限制的资源。 例如如果系统主要受内存影响那就主要关注系统的内存状态如果系统主要受限与磁盘I/O那就主要观测磁盘I/O的状态。因为通常情况下当这些资源达到饱和后服务的性能会明显下降。同时还可以利用饱和度对系统做出预测比如“磁盘是否可能在4个小时候就满了”。2RED用法RED方法是Weave Cloud在基于Google的“4个黄金指标”的原则下结合Prometheus以及Kubernetes容器实践细化和总结的方法论特别适合于云原生应用以及微服务架构应用的监控和度量。主要关注以下三种关键指标(请求)速率服务每秒接收的请求数(请求)错误每秒失败的请求数(请求)耗时每个请求的耗时在“4大黄金信号”的原则下RED方法可以有效的帮助用户衡量云原生以及微服务应用下的用户体验问题。3USE用法USE方法全称Utilization Saturation and Errors Method主要用于分析系统性能问题可以指导用户快速识别资源瓶颈以及错误的方法。正如USE方法的名字所表示的含义USE方法主要关注与资源的使用率(Utilization)、饱和度(Saturation)以及错误(Errors)。使用率关注系统资源的使用情况。 这里的资源主要包括但不限于CPU内存网络磁盘等等。100%的使用率通常是系统性能瓶颈的标志。饱和度例如CPU的平均运行排队长度这里主要是针对资源的饱和度(注意不同于4大黄金信号)。任何资源在某种程度上的饱和都可能导致系统性能的下降。错误错误计数例如“网卡在数据包传输过程中检测到的以太网网络冲突了14次”。

更多文章