Oracle 11g RAC集群运维：手把手教你用crsctl命令诊断CRS健康状态（附常见错误排查）

张开发

• 2026/6/19 14:01:56 • 15 分钟阅读

分享文章

Oracle 11g RAC集群运维：手把手教你用crsctl命令诊断CRS健康状态（附常见错误排查）

Oracle 11g RAC集群健康诊断实战crsctl命令深度解析与故障排查指南凌晨三点值班手机突然响起刺耳的警报声——某核心业务系统的Oracle RAC集群出现节点异常。作为DBA这种场景往往意味着一个不眠之夜。但真正资深的运维专家都清楚慌乱解决不了问题关键在于能否快速定位CRSCluster Ready Services的健康状态。本文将带你掌握crsctl命令的诊断艺术像老中医望闻问切一样从命令输出中捕捉集群的异常信号。1. CRS健康检查基础从常规体检开始1.1 集群状态快速扫描当接到集群异常报警时我通常会先做一次全面体检。crsctl check crs就是最基础却最重要的听诊器$ crsctl check crs CRS-4638: Oracle High Availability Services is online CRS-4535: Cannot communicate with Cluster Ready Services CRS-4529: Cluster Synchronization Services is online CRS-4534: Cannot communicate with Event Manager这个输出已经暴露出严重问题——CRS和Event Manager通信异常。但资深DBA不会止步于此我们需要进一步验证$ crsctl check cluster -all ************************************************************** rac1: CRS-4535: Cannot communicate with Cluster Ready Services CRS-4530: Communications failure contacting Cluster Synchronization Services daemon CRS-4534: Cannot communicate with Event Manager ************************************************************** rac2: CRS-4638: Oracle High Availability Services is online CRS-4537: Cluster Ready Services is online CRS-4529: Cluster Synchronization Services is online CRS-4533: Event Manager is online通过跨节点检查我们立即发现rac1节点存在集群通信故障而rac2节点完全正常。这种对比诊断能快速缩小问题范围。1.2 关键组件状态查询CRS由多个核心组件构成了解它们的协作关系对诊断至关重要组件名称守护进程功能描述关键状态码OHASohasd高可用服务主进程CRS-4638CRSDcrsd集群就绪服务CRS-4537CSSDcssd集群同步服务CRS-4529EVMDevmd事件管理服务CRS-4533查询详细版本信息也很重要不同版本的诊断方法可能有差异$ crsctl query crs activeversion Oracle Clusterware active version on the cluster is [11.2.0.4.0] $ crsctl query crs softwareversion rac1 Oracle Clusterware version on node [rac1] is [11.2.0.4.0]2. 深度诊断解读CRS状态码的玄机2.1 常见错误状态解析CRS的错误代码看似晦涩实则各有特定含义。以下是实战中积累的状态码速查表CRS-4535: CRS服务通信中断可能原因网络隔离、crsd进程崩溃、OCR损坏排查命令crsctl stat res ora.crsd -tCRS-4638: OHAS服务运行正常健康状态标志但需结合其他服务状态判断CRS-4529: CSSD服务在线集群同步基础正常节点心跳保持CRS-4534: EVMD服务失联影响事件通知但通常不影响基础集群功能2.2 典型故障场景处理场景一节点间网络闪断$ crsctl check crs CRS-4638: Oracle High Availability Services is online CRS-4535: Cannot communicate with Cluster Ready Services CRS-4529: Cluster Synchronization Services is online CRS-4534: Cannot communicate with Event Manager处理步骤检查私网互联状态$ oifcfg getif eth0 192.168.1.0 global public eth1 10.10.10.0 global cluster_interconnect验证私网通信$ ping -c 3 10.10.10.2必要时重启网络组件$ crsctl stop res ora.cluster_interconnect.haip -f $ crsctl start res ora.cluster_interconnect.haip场景二OCR磁盘损坏$ crsctl query css votedisk ## STATE File Universal Id File Name Disk group -- ----- ----------------- --------- --------- 1. ONLINE 4a4f5f4f525f444b (VALID) /dev/asmdisk1 [OCR_DG] CRS-10001: Unable to read voting disk header急救方案使用备份OCR恢复$ ocrconfig -restore /u01/backup/ocrbackup_20230801.ocr若无备份尝试导出重建$ ocrconfig -export /tmp/ocr.exp -s online $ ocrconfig -import /tmp/ocr.exp3. 高级诊断技巧日志分析与组件控制3.1 日志定位黄金法则CRS各组件的日志位置及关键信息OHASD日志$ tail -100 $GRID_HOME/log/hostname/ohasd/ohasd.log关注资源启动顺序、依赖关系错误CRSD日志$ tail -200 $GRID_HOME/log/hostname/crsd/crsd.log关键搜索词CRS-1006、CRS-0215CSSD日志$ grep -i error $GRID_HOME/log/hostname/cssd/ocssd.log心跳超时通常显示clssnmPollingThread错误3.2 服务控制实战安全停止CRS集群预检查资源状态$ crsctl stat res -t按顺序停止服务$ crsctl stop crs -f验证停止结果$ ps -ef | grep crs分级启动技巧$ crsctl start crs -excl -nocrs # 仅启动OHAS $ crsctl start res ora.crsd -init # 手动启动CRS4. 预防性维护构建健康检查体系4.1 自动化监控脚本以下是我在生产环境使用的检查脚本核心片段#!/bin/bash CRS_STATUS$(crsctl check crs | grep -c online) if [ $CRS_STATUS -lt 4 ]; then echo CRITICAL: CRS components offline | mail -s RAC Alert dba-teamexample.com crsctl stat res -t /tmp/crs_status_$(date %Y%m%d).log fi4.2 关键健康指标建议定期检查的指标清单表决磁盘健康度$ crsctl query css votediskOCR自动备份状态$ ocrconfig -showbackup集群资源依赖关系$ crsctl stat res -t -f4.3 配置最佳实践经过多年实战总结的配置建议网络冗余配置$ oifcfg setif -global eth1/10.10.10.0:cluster_interconnect $ oifcfg setif -global eth2/10.10.20.0:cluster_interconnect表决磁盘多路径$ crsctl replace votedisk OCR_DGOCR镜像保护$ ocrconfig -replace ocrmirror /dev/asmdisk2记得第一次处理CRS-4535错误时我花了整整八小时才定位到是一个网卡驱动不兼容导致的丢包问题。现在通过系统化的诊断方法同样的问题能在二十分钟内解决——这就是经验的价值。建议每次故障处理后记录详细的诊断过程逐渐形成自己的病例库。

更多文章

前端开发 2026/6/19 15:12:51

Zotero插件商店终极指南：一站式插件管理解决方案

Zotero插件商店终极指南：一站式插件管理解决方案【免费下载链接】zotero-addons Zotero Add-on Market | Zotero插件市场 | Browsing, installing, and reviewing plugins within Zotero 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-addons Zotero…

NVIDIA Profile Inspector终极指南：解锁隐藏设置，让你的游戏性能飙升【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 还在为游戏卡顿、画面撕裂和输入延迟而烦恼吗？N…

张开发

前端开发 2026/5/23 17:27:18

Flutter打包APK时，那个神秘的‘gen_snapshot‘文件去哪了？手把手教你找回并修复

Flutter打包APK时gen_snapshot文件失踪之谜：全方位排查与解决方案当你满怀期待地运行flutter build apk命令，准备将精心开发的Flutter应用打包发布时，突然遭遇了令人困惑的构建失败。控制台抛出一堆晦涩的错误信息，其中最关键的线…

张开发

Oracle 11g RAC集群运维：手把手教你用crsctl命令诊断CRS健康状态（附常见错误排查）

最新文章

AI推理卡在GC上？.NET 11 GC第7代改进与Span＜T＞-First内存策略（附3个内存泄漏检测脚本）

2026届必备的五大降重复率助手横评

工业机器人智能进化的革命性突破：6自由度机械臂从理论到实践的完整技术解析

为什么你的EF Core向量搜索在K8s集群中频繁OOM？——基于eBPF追踪的内存泄漏根因分析（附诊断脚本+自动修复中间件）

荒岛求生与系统容灾：从《新概念英语》Lesson 12聊聊你的“业务救生筏”准备好了吗？

【仅限首批200名开发者】Dify API v0.12.0未公开的/batch_stream接口性能红利：吞吐提升210%实录

推荐文章

相关文章

分享文章

更多文章

Zotero插件商店终极指南：一站式插件管理解决方案

基于遗传算法的模糊PID控制器整定(Matlab代码实现）

TranslucentTB启动失败？5个步骤彻底解决Microsoft.UI.Xaml依赖问题

CefFlashBrowser完整指南：如何在2024年完美运行Flash游戏和内容

Qwen2.5与ChatGLM4对比评测：轻量模型推理速度PK

深度解析ncmdump：高效破解网易云音乐NCM加密格式实战指南

SQL嵌套查询在多租户系统应用_数据隔离逻辑

告别高温降频：Universal x86 Tuning Utility 终极CPU性能优化指南

从单片机到SoC：如何理解芯片的‘定制化’与‘集成化’演进？

intv_ai_mk11实用技巧教学：一次说清+指定格式+逐步追问三大高阶提问法详解

NVIDIA Profile Inspector终极指南：解锁隐藏设置，让你的游戏性能飙升

Flutter打包APK时，那个神秘的‘gen_snapshot‘文件去哪了？手把手教你找回并修复