当前位置:首页 > RockyLinux > 正文

构建企业级大数据平台(Rocky Linux 上 Hadoop 集群部署与最佳实践)

随着数据量的爆炸式增长,企业对高效、稳定的大数据处理平台需求日益迫切。Rocky Linux 作为 CentOS 的继任者,凭借其稳定性、开源性和长期支持,成为部署大数据平台的理想选择。本文将手把手教你如何在 Rocky Linux 上搭建一个基础的 Hadoop 分布式集群,并介绍生产环境中的最佳实践。

为什么选择 Rocky Linux?

Rocky Linux 是由 CentOS 创始人 Gregory Kurtzer 发起的社区驱动项目,完全兼容 RHEL(Red Hat Enterprise Linux),提供免费、稳定、安全的企业级操作系统。对于需要长期运行的大数据平台来说,Rocky Linux 提供了:

  • 长达 10 年的安全更新支持
  • 与 RHEL 完全二进制兼容,确保软件生态稳定
  • 活跃的社区和清晰的路线图
构建企业级大数据平台(Rocky Linux 上 Hadoop 集群部署与最佳实践) Rocky 大数据平台 集群部署 Hadoop安装 第1张

准备工作:系统环境要求

在开始之前,请确保你有以下资源:

  • 至少 3 台 Rocky Linux 服务器(建议版本 8 或 9)
  • 每台服务器至少 4GB 内存、2 核 CPU、50GB 磁盘空间
  • 稳定的网络连接,各节点之间可互相通信
  • 具有 sudo 权限的非 root 用户(如 hadoopuser)

第一步:配置主机名与 hosts 文件

为每台机器设置唯一主机名,并在所有节点的 /etc/hosts 文件中添加彼此的 IP 与主机名映射。例如:

# 在所有节点执行sudo hostnamectl set-hostname node1   # 主节点sudo hostnamectl set-hostname node2   # 工作节点sudo hostnamectl set-hostname node3   # 工作节点# 编辑 /etc/hosts,添加如下内容(IP 替换为实际地址)192.168.1.10 node1192.168.1.11 node2192.168.1.12 node3  

第二步:安装 Java 环境

Hadoop 依赖 Java 运行环境。Rocky Linux 推荐使用 OpenJDK 11:

sudo dnf install -y java-11-openjdk-devel# 验证安装java -version  

设置 JAVA_HOME 环境变量(在 /etc/profile.d/java.sh 中):

echo 'export JAVA_HOME=$(dirname $(dirname $(readlink $(readlink $(which javac)))))' | sudo tee /etc/profile.d/java.shecho 'export PATH=$JAVA_HOME/bin:$PATH' | sudo tee -a /etc/profile.d/java.shsource /etc/profile.d/java.sh  

第三步:创建专用用户并配置 SSH 免密登录

出于安全考虑,Hadoop 应运行在专用用户下:

# 所有节点执行sudo useradd -m hadoopusersudo passwd hadoopuser  

然后在主节点(node1)上生成 SSH 密钥,并分发到所有节点:

su - hadoopuserssh-keygen -t rsa -P '' -f ~/.ssh/id_rsassh-copy-id hadoopuser@node1ssh-copy-id hadoopuser@node2ssh-copy-id hadoopuser@node3  

测试免密登录:ssh node2,应无需密码即可登录。

第四步:下载并配置 Hadoop

从 Apache 官网下载 Hadoop(以 3.3.6 为例):

cd /tmpwget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gztar -xzf hadoop-3.3.6.tar.gz -C /opt/sudo chown -R hadoopuser:hadoopuser /opt/hadoop-3.3.6ln -s /opt/hadoop-3.3.6 /opt/hadoop  

配置环境变量(在 hadoopuser 的 ~/.bashrc 中):

echo 'export HADOOP_HOME=/opt/hadoop' >> ~/.bashrcecho 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bashrcecho 'export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop' >> ~/.bashrcsource ~/.bashrc  

第五步:核心配置文件修改

编辑以下文件(位于 $HADOOP_HOME/etc/hadoop/):

core-site.xml

<configuration>  <property>    <name>fs.defaultFS</name>    <value>hdfs://node1:9000</value>  </property></configuration>  

hdfs-site.xml

<configuration>  <property>    <name>dfs.replication</name>    <value>2</value>  </property>  <property>    <name>dfs.namenode.name.dir</name>    <value>file:///opt/hadoop/data/namenode</value>  </property>  <property>    <name>dfs.datanode.data.dir</name>    <value>file:///opt/hadoop/data/datanode</value>  </property></configuration>  

workers(原 slaves 文件)

node2node3  

第六步:格式化 NameNode 并启动集群

仅在主节点执行:

hdfs namenode -format# 启动 HDFSstart-dfs.sh  

访问 http://node1:9870 即可查看 HDFS Web UI。

生产环境最佳实践

在真实企业环境中部署 Rocky Linux 大数据平台时,还需注意以下几点:

  • 安全加固:启用 Kerberos 认证,限制 SSH 登录,关闭不必要的服务。
  • 监控告警:集成 Prometheus + Grafana 监控 Hadoop 集群状态。
  • 日志管理:使用 ELK(Elasticsearch, Logstash, Kibana)集中收集日志。
  • 定期备份:对 NameNode 元数据和关键业务数据进行定期快照备份。

结语

通过以上步骤,你已在 Rocky Linux 上成功部署了一个基础的 Hadoop 分布式集群。Rocky Linux 凭借其企业级稳定性和开源特性,为大数据平台提供了坚实的基础。无论是学习、测试还是生产环境,这套方案都具备良好的扩展性和可靠性。掌握 Rocky Linux大数据平台集群部署Hadoop安装 技能,将为你在数据工程领域打下坚实基础。

下一步,你可以尝试集成 Hive、Spark 或 Flink,构建更完整的大数据生态体系!