CDH 6.3.2离线安装避坑指南:手把手教你用CentOS 7.9搭建三节点集群

张开发
2026/4/9 9:51:28 15 分钟阅读

分享文章

CDH 6.3.2离线安装避坑指南:手把手教你用CentOS 7.9搭建三节点集群
CDH 6.3.2离线部署实战三节点集群搭建与深度调优指南在企业级大数据平台建设中Cloudera Distribution HadoopCDH因其稳定性与完整性备受青睐。然而在无外网访问的生产环境中离线部署往往成为技术团队面临的第一个挑战。本文将基于CentOS 7.9系统通过本地Yum源构建、Parcel包定制分发和内核参数深度优化三个技术维度带您完成一套高可用的三节点CDH 6.3.2集群部署。1. 离线环境架构设计1.1 基础设施规划典型的三节点集群建议采用以下角色划分管理节点bigdata111承担Cloudera Manager Server、MySQL元数据库和HTTPD服务工作节点Abigdata112部署DataNode、NodeManager等数据计算组件工作节点Bbigdata113部署DataNode、NodeManager及可选的管理组件硬件配置基准线组件最低配置要求生产环境推荐CPU4核16核内存16GB64GB系统磁盘100GB500GB SSD数据磁盘1TB4TB x121.2 软件包准备完整的离线部署需要以下文件包Cloudera Manager 6.3.1 RPM包CDH 6.3.2 Parcel文件包含manifest.jsonMySQL JDBC驱动5.1.47Oracle JDK 1.8 RPM包推荐目录结构/var/www/html/cdh6.3.2 ├── CM6.3.1 │ ├── cloudera-manager-*.rpm │ └── repodata └── CDH6.3.2 ├── CDH-6.3.2-*.parcel ├── manifest.json └── repodata2. 系统级深度调优2.1 内核参数优化编辑/etc/sysctl.conf添加# 禁用透明大页 vm.nr_hugepages 0 vm.hugetlb_shm_group 0 # 内存与网络优化 vm.swappiness 10 net.ipv4.tcp_syncookies 1 net.ipv4.tcp_max_syn_backlog 1024执行以下命令使配置生效sysctl -p echo never /sys/kernel/mm/transparent_hugepage/defrag echo never /sys/kernel/mm/transparent_hugepage/enabled2.2 资源限制调整修改/etc/security/limits.conf* soft nofile 65536 * hard nofile 65536 * soft nproc 65536 * hard nproc 65536 hdfs soft memlock unlimited hdfs hard memlock unlimited yarn soft memlock unlimited yarn hard memlock unlimited2.3 时间同步关键配置Chrony服务配置示例/etc/chrony.confserver bigdata111 iburst local stratum 10 makestep 1.0 3验证时间同步状态chronyc tracking chronyc sources -v3. 离线Yum源建设3.1 HTTPD服务定制化配置修改/etc/httpd/conf/httpd.conf确保支持大文件传输IfModule mime_module AddType application/x-gzip .gz .tgz .parcel EnableSendfile off Timeout 600 KeepAliveTimeout 60 /IfModule启动服务并设置防火墙例外systemctl start httpd firewall-cmd --permanent --add-servicehttp firewall-cmd --reload3.2 本地Repo构建技巧创建CM仓库元数据createrepo --update /var/www/html/cdh6.3.2/CM6.3.1/客户端节点repo配置示例/etc/yum.repos.d/cm-local.repo[cm-local] nameCloudera Manager Local baseurlhttp://bigdata111/cdh6.3.2/CM6.3.1/ gpgcheck0 enabled1 priority14. 集群部署实战4.1 数据库初始化关键步骤MySQL初始化脚本CREATE DATABASE scm DEFAULT CHARACTER SET utf8; GRANT ALL ON scm.* TO scm% IDENTIFIED BY Scmsecure123; FLUSH PRIVILEGES;执行SCM数据库准备/opt/cloudera/cm/schema/scm_prepare_database.sh \ mysql scm scm Scmsecure123 \ --hostbigdata111 \ --port3306 \ --scm-hostbigdata1114.2 Parcel分发异常处理常见Parcel校验问题解决方案SHA校验失败时手动验证sha1sum CDH-6.3.2-*.parcel cat CDH-6.3.2-*.parcel.sha分发卡顿时检查agent日志tail -f /var/log/cloudera-scm-agent/cloudera-scm-agent.log手动激活Parcelcurl -X POST -u admin:admin \ http://bigdata111:7180/api/v19/clusters/Cluster1/parcels/products/CDH/versions/6.3.2/commands/activate4.3 服务部署黄金法则角色分配原则JournalNode至少3个且为奇数ZKServer部署在独立节点管理角色分散部署HDFS关键配置property namedfs.datanode.du.reserved/name value10737418240/value !-- 保留10GB空间 -- /propertyYARN内存计算Container内存 min( 2 * 物理内存 / vcores数, 物理内存 - Reserved内存 )5. 运维监控体系搭建5.1 监控指标基线设置关键监控阈值建议指标警告阈值危险阈值HDFS存储使用率70%85%YARN容器Pending数50100节点平均负载vCore*2vCore*45.2 日志收集方案ELK集成配置示例log4j.appender.ELKorg.apache.log4j.net.SocketAppender log4j.appender.ELK.Port4560 log4j.appender.ELK.RemoteHostelk-server log4j.appender.ELK.ReconnectionDelay100006. 性能调优实战6.1 HDFS优化参数!-- 核心参数调优 -- property namedfs.namenode.handler.count/name value64/value !-- 建议设为集群节点数*4 -- /property property namedfs.datanode.max.transfer.threads/name value8192/value /property6.2 YARN内存管理计算资源公式yarn.nodemanager.resource.memory-mb 物理内存 - 系统预留 - HDFS预留 yarn.scheduler.maximum-allocation-mb min(单节点总内存, 8GB * vcores)6.3 Impala查询优化关键会话参数SET MEM_LIMIT16g; SET MT_DOP4; SET DISABLE_CODEGENfalse;在完成所有组件部署后建议运行CDH自带的集群压力测试工具hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-client-jobclient-*.jar TestDFSIO

更多文章