Ubuntu20.04下基于cephadm的Ceph集群高效部署指南

张开发

• 2026/4/17 5:16:29 • 15 分钟阅读

分享文章

1. 环境准备打造Ceph集群的基石在Ubuntu 20.04上部署Ceph集群前需要像搭积木一样先打好地基。我遇到过不少初学者因为环境配置不当导致后续步骤失败的情况所以这里会详细说明每个环节的避坑要点。硬件配置方面建议每台节点至少配备4核CPU/8GB内存管理节点建议翻倍系统盘单独使用SSD建议50GB以上数据盘推荐用HDD每块至少10GB建议4TB以上企业级硬盘万兆网络环境千兆网卡会出现性能瓶颈软件依赖的安装其实有讲究。很多人直接apt install完事但实际生产环境中需要特别注意版本匹配# 推荐使用阿里云镜像加速安装国内环境 sudo sed -i s/archive.ubuntu.com/mirrors.aliyun.com/g /etc/apt/sources.list sudo apt update sudo apt upgrade -y # 必须安装的依赖包 sudo apt install -y docker.io lvm2 chrony python3这里有个容易踩的坑时间同步。我有次部署后集群频繁出现脑裂问题排查半天发现是节点间时间差超过0.05秒。正确的chrony配置应该是# 修改/etc/chrony/chrony.conf pool ntp.aliyun.com iburst makestep 1.0 3验证时间同步是否生效要用chronyc tracking命令看到System time的偏差值小于1ms才算合格。另外建议在所有节点执行timedatectl set-timezone Asia/Shanghai统一时区。2. 单机集群引导从零到一的突破cephadm的bootstrap过程就像给新生儿办出生证明这一步会生成集群的唯一身份标识FSID。我实测发现几个关键点IP地址选择必须使用固定IPDHCP分配的IP会导致集群故障容器镜像默认从quay.io拉取国内环境建议提前配置镜像加速防火墙设置需要放行6789(TCP)、3300(TCP)、9283(TCP)等端口具体执行时建议这样操作# 先检查网络连通性 ping -c 4 114.114.114.114 # 推荐使用完整bootstrap命令包含日志输出 cephadm bootstrap --mon-ip 192.168.64.128 | tee bootstrap.log这个命令会输出包含dashboard访问信息的彩蛋内容务必保存好。我习惯用jq工具解析生成的配置文件sudo apt install jq jq . /etc/ceph/ceph.conf常见问题排查技巧如果卡在pull镜像环节可以手动docker pull quay.io/ceph/ceph:v15出现证书错误时尝试cephadm regenerate-certs磁盘空间不足会导致mgr启动失败需要docker system prune清理3. 多主机扩展构建分布式存储军团单机集群只是开始真正的威力在于多节点扩展。这里分享我的三步添加法第一步准备新节点# 在所有新节点执行 sudo apt update sudo apt install -y docker.io lvm2 chrony sudo usermod -aG docker $USER第二步SSH互信配置# 在管理节点执行 ssh-copy-id -f -i /etc/ceph/ceph.pub rootnode02第三步正式加入集群ceph orch host add node02 192.168.64.129 ceph orch host label add node02 osd我遇到过节点添加后服务不自动部署的情况这时候需要手动触发ceph orch apply mon --placementnode01,node02,node03 ceph orch apply mgr --placementnode01,node02,node03扩展后的健康检查很重要推荐使用这个组合命令ceph -s ceph osd tree ceph orch ps4. OSD管理数据存储的实战艺术OSD是真正存储数据的地方管理好OSD等于掌握了Ceph的核心。根据我的经验OSD部署要遵循三看原则一看设备状态ceph orch device ls --hostnamenode01输出中要确认Available为True且没有Rejected标签二看部署方式# 单个磁盘部署适合测试 ceph orch daemon add osd node01:/dev/sdb # 批量部署生产推荐 ceph orch apply osd --all-available-devices三看性能表现# 查看OSD实时负载 ceph osd perf # 测试实际IO性能 rados bench -p testpool 10 write --no-cleanup删除OSD时有个安全操作顺序# 先停止OSD ceph osd out osd.0 # 等待数据迁移完成PG全部activeclean ceph osd crush remove osd.0 ceph auth del osd.0 ceph osd rm osd.0 # 最后擦除设备 ceph orch device zap node01 /dev/sdb --force5. 集群监控运维人员的火眼金睛Ceph自带的监控组件其实很强大但需要合理配置。我的监控方案包含三个层次基础监控层# 启用Prometheus所有模块 ceph mgr module enable prometheus可视化层# 定制Grafana仪表盘 ceph dashboard set-grafana-api-url https://localhost:3000告警层# 配置Alertmanager规则 vi /etc/ceph/alertmanager.yml日常运维中这几个命令最实用# 实时查看集群事件 ceph -w # 检查存储池健康度 ceph osd pool stats # 查看容量预测非常实用 ceph df detail对于生产环境我建议设置定期健康检查脚本#!/bin/bash ceph status /var/log/ceph-health-$(date %Y%m%d).log ceph osd df /var/log/ceph-health-$(date %Y%m%d).log最后提醒下所有关键操作前建议先做模拟演练ceph osd lost --yes-i-really-mean-it --dry-run

更多文章

前端开发 2026/4/17 5:14:21

别只当个悬浮球用！解锁Ba-FloatBall的三种高阶玩法：应用助手、游戏辅助与效率工具

别只当个悬浮球用！解锁Ba-FloatBall的三种高阶玩法：应用助手、游戏辅助与效率工具在移动应用开发领域，悬浮球组件早已不是新鲜事物，但大多数开发者仅仅将其视为一个简单的快捷入口或菜单触发器。Ba-FloatBall作为UniApp生态中的一…

PyTorch多卡训练负载均衡深度解析：从DataParallel到分布式优化策略当你在实验室盯着四块GPU的监控面板，发现0号卡显存早已爆红而其他卡还在悠闲地"打酱油"时，这熟悉的场景背后隐藏着PyTorch多卡训练的深层机制。本文将带你穿透现象…

张开发

前端开发 2026/4/17 4:57:12

魔兽争霸III兼容性终极解决方案：WarcraftHelper完整使用指南

魔兽争霸III兼容性终极解决方案：WarcraftHelper完整使用指南【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为经典魔兽争霸III在现代…

张开发

Ubuntu20.04下基于cephadm的Ceph集群高效部署指南

最新文章

终极解决ComfyUI-Florence2模型加载失败的完整技术指南

【生成式AI服务发现黄金法则】：20年架构师亲授3大动态路由策略与5个避坑指南

【收藏级】2026 AI大模型学习指南｜小白程序员入门到就业全攻略，抓住行业红利

答题PK源码购买必看！

PLB-TV 纯净 4K 影视：无广告流畅播放体验

万象熔炉 | Anything XL镜像免配置：支持自定义模型路径+多权重快速切换

推荐文章

FastAPI单元测试实战：别等上线被喷才后悔，TestClient用对了真香！盐

实战解析：Bidirectional LSTM在NLP任务中的高效应用

PID控制算法实战：如何用积分分离解决系统超调问题（附MATLAB代码）

Python asyncio 并发文件处理方案

Matlab+Ncorr：从零搭建数字图像相关分析环境

三菱FX5S PLC程序与MCGS昆仑通态触摸屏集成：伺服压力机实时监控与历史数据管理

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

别只当个悬浮球用！解锁Ba-FloatBall的三种高阶玩法：应用助手、游戏辅助与效率工具

不止于仿真：如何将Simulink中的IEEE 14/30节点模型用于你的学术论文与毕设

五大主流地图数据本地化实战：高德、百度、腾讯、必应与ArcGIS下载指南

终极指南：如何使用DLSS Swapper一键管理所有游戏的DLSS版本，提升游戏性能

s2-pro语音生成实战：用s2-pro为PPT自动生成逐页讲解语音旁白

告别转接头！用ESP32蓝牙和PS3手柄打造你的无线遥控小车（附完整代码与配置）

大模型---MCTS/LATS

DLSS Swapper终极指南：轻松管理你的游戏DLSS文件，提升游戏性能的完整教程

15分钟实战指南：用llama-cpp-python打造本地LLM推理引擎

KUKA KRC4柜子‘扩容’指南：从WorkVisual配置看如何为机器人增加第9个轴

你的PyTorch多卡训练效率低？可能是DataParallel的‘锅’！聊聊负载均衡那些事儿

魔兽争霸III兼容性终极解决方案：WarcraftHelper完整使用指南