华为网络设备高效巡检命令全解析(运维必备)

张开发
2026/4/11 19:12:52 15 分钟阅读

分享文章

华为网络设备高效巡检命令全解析(运维必备)
1. 华为网络设备巡检命令的重要性作为网络运维人员每天最头疼的就是设备突然抽风业务中断。记得去年双十一大促前夜我们核心交换机突然丢包严重要不是靠着几个关键巡检命令快速定位到是BGP邻居状态异常估计第二天就要上头条了。华为设备的巡检命令就像医生的听诊器能让我们快速掌握设备的生命体征。常规巡检主要关注三大指标硬件健康度温度、电源、风扇、协议状态BGP/OSPF邻居、STP状态、性能瓶颈CPU/内存利用率。我习惯把巡检分为三个层级基础巡检每天必查、深度巡检周检/月检、应急巡检故障时。比如display cpu-usage就是我的每日必查项而display ospf lsdb这类命令通常只在网络割接时才会用到。2. 硬件健康度检查命令2.1 环境监控三件套新手最容易忽视的就是硬件监控直到有次机房空调故障我们通过这几个命令救了命display temperature # 查看各槽位温度超过60℃要警惕 display fan # 风扇转速异常会导致过热 display power # 检查电源冗余状态重点看PowerID为0的主电源实测发现华为CE系列交换机在高温时会自动降频这时候display device命令会显示Board Type旁出现警告三角标。有个坑要注意display voltage显示的电压值单位是mV12.3V会显示为12300。2.2 内存与CPU检查技巧遇到设备卡顿时我通常会这样排查display memory-usage | exclude 0% # 过滤未使用内存 display cpu-usage history # 查看历史曲线华为设备有个特性当内存利用率持续超过80%时建议重点检查display logbuffer里的内存告警。对于CPU5分钟负载超过70%就要引起警觉特别是业务高峰期。3. 网络协议状态巡检3.1 路由协议必查项BGP邻居状态检查是我踩坑最多的地方display bgp peer | include Established # 筛选已建立邻居 display bgp routing-table statistics # 检查路由收敛数量如果发现Active状态的邻居立即用display tcp status查179端口状态。OSPF方面重点看这三个display ospf peer brief # 邻居状态要Full display ospf lsdb summary # 检查LSA数量激增 display ospf error # 认证错误高频发生点3.2 二层网络诊断STP和VRRP是最容易背锅的协议display stp abnormal-port # 找出被阻塞端口 display vrrp | include Master # 确认主备状态有个经典案例某次display mac-address发现大量MAC漂移最后查出是display vlan里有个Access端口被误配成Trunk。建议把这两个命令组合使用display interface | include error # 先看错误包 display counters error inbound # 定位具体错误类型4. 配置文件与日志管理4.1 配置对比技巧每次变更前必做配置备份display current-configuration 20230815.cfg compare 20230815.cfg startup.cfg # 华为独家命令我习惯用display startup确认下次启动配置特别是堆叠系统要重点检查display stack configuration # 堆叠优先级检查 display stack topology # 物理连接验证4.2 日志分析实战display logbuffer的进阶用法display logbuffer | include % # 筛选带百分号的严重日志 display logbuffer size 1024 # 扩大缓冲区查看有个隐藏技巧用terminal monitor命令可以实时监控日志配合display trapbuffer使用效果更佳。遇到复杂问题时会用display diagnostic-information # 一键收集所有诊断信息5. 巡检自动化实践5.1 定时任务配置华为的job功能可以实现自动巡检job daily-check view system display device flash:/health_check.log display interface brief flash:/health_check.log commit建议把关键命令写成脚本通过tftp协议定期上传到日志服务器。我常用的巡检脚本包含硬件状态检查温度/电源/风扇协议状态检查BGP/OSPF/STP性能基线对比CPU/内存历史数据5.2 异常告警设置通过snmp配置阈值告警snmp-agent trap enable feature-name cpu_threshold threshold cpu-usage upper-limit 80对于关键业务端口可以设置interface监控monitor-port GigabitEthernet 0/0/1 statistics interval 3006. 典型故障排查流程当设备出现异常时我通常会按这个顺序排查先用display alarm all看硬件告警检查display device看单板状态通过display interface看端口CRC错误用display cpu-usage history看历史负载最后用display logbuffer看系统日志有个记忆口诀一告警二状态三错包四负载日志里面找真相。比如上次遇到端口频繁up/down就是通过display interface history查到了链路震荡记录。7. 巡检报告生成技巧专业运维都要会做巡检报告我的模板包含硬件状态汇总表协议状态矩阵图性能趋势曲线配置变更记录用这个命令可以生成漂亮的数据display interface | include rate # 获取流量趋势 display cpu-usage | include 5-min # 提取关键指标最后提醒所有巡检结果都要存档建议按设备名日期的格式命名比如CE6850_20230815.log。养成好习惯关键时刻能救命。

更多文章