当前位置：首页 > RockyLinux > 正文

RockyLinux大数据集群部署（手把手教你从零搭建Hadoop大数据平台）

主机测评网
RockyLinux
2025-12-07
851

在当今数据驱动的时代，构建一个稳定高效的大数据处理平台至关重要。RockyLinux作为CentOS的继任者，以其企业级稳定性与开源社区支持，成为部署大数据集群的理想选择。本教程将详细指导你如何在RockyLinux系统上从零开始搭建一个Hadoop大数据集群，即使是Linux新手也能轻松上手。

RockyLinux大数据集群部署（手把手教你从零搭建Hadoop大数据平台） RockyLinux大数据集群部署 RockyLinux Hadoop安装大数据平台搭建教程 RockyLinux集群配置第1张

一、环境准备

在开始之前，请确保你具备以下条件：

至少3台RockyLinux 8或9服务器（可使用虚拟机）
每台机器至少2GB内存、20GB硬盘空间
稳定的网络连接，并能互相通过主机名通信
root权限或sudo权限

二、基础配置（所有节点）

1. 关闭防火墙和SELinux

为避免网络通信问题，建议先关闭防火墙和SELinux：

# 关闭防火墙sudo systemctl stop firewalldsudo systemctl disable firewalld# 关闭SELinux（临时）setenforce 0# 永久关闭SELinuxsudo sed -i 's/^SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/config

2. 配置主机名和hosts文件

假设你的三台机器角色如下：

master：主节点（NameNode + ResourceManager）
slave1、slave2：工作节点（DataNode + NodeManager）

分别在每台机器上设置主机名：

# 在master上执行sudo hostnamectl set-hostname master# 在slave1上执行sudo hostnamectl set-hostname slave1# 在slave2上执行sudo hostnamectl set-hostname slave2

然后在所有节点的 /etc/hosts 文件中添加以下内容：

192.168.1.10 master192.168.1.11 slave1192.168.1.12 slave2

三、安装Java环境

Hadoop依赖Java运行环境。我们使用OpenJDK 8或11：

# 安装OpenJDK 11sudo dnf install -y java-11-openjdk-devel# 验证安装java -version

设置JAVA_HOME环境变量（在 /etc/profile 末尾添加）：

export JAVA_HOME=$(dirname $(dirname $(readlink -f $(which java))))export PATH=$PATH:$JAVA_HOME/bin

执行 source /etc/profile 使配置生效。

四、安装Hadoop（仅在master节点）

我们将Hadoop安装在 /opt/hadoop 目录下：

# 下载Hadoop（以3.3.6为例）cd /tmpwget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.6/hadoop-3.3.6.tar.gz# 解压并移动到/opt目录sudo tar -xzf hadoop-3.3.6.tar.gz -C /opt/sudo mv /opt/hadoop-3.3.6 /opt/hadoop# 设置权限sudo chown -R $(whoami):$(whoami) /opt/hadoop

配置Hadoop环境变量

编辑 ~/.bashrc 文件，添加以下内容：

export HADOOP_HOME=/opt/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinexport HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

执行 source ~/.bashrc 生效。

关键配置文件修改

进入 $HADOOP_HOME/etc/hadoop 目录，依次修改以下文件：

1. core-site.xml

<configuration>  <property>    <name>fs.defaultFS</name>    <value>hdfs://master:9000</value>  </property></configuration>

2. hdfs-site.xml

<configuration>  <property>    <name>dfs.replication</name>    <value>2</value>  </property>  <property>    <name>dfs.namenode.name.dir</name>    <value>file:///opt/hadoop/data/namenode</value>  </property>  <property>    <name>dfs.datanode.data.dir</name>    <value>file:///opt/hadoop/data/datanode</value>  </property></configuration>

3. yarn-site.xml

<configuration>  <property>    <name>yarn.nodemanager.aux-services</name>    <value>mapreduce_shuffle</value>  </property>  <property>    <name>yarn.resourcemanager.hostname</name>    <value>master</value>  </property></configuration>

4. mapred-site.xml

<configuration>  <property>    <name>mapreduce.framework.name</name>    <value>yarn</value>  </property></configuration>

5. workers 文件（原slaves）

slave1slave2

五、分发Hadoop到其他节点

使用scp命令将整个Hadoop目录复制到slave1和slave2：

# 在master上执行scp -r /opt/hadoop slave1:/opt/scp -r /opt/hadoop slave2:/opt/# 同时复制.bashrc（包含环境变量）scp ~/.bashrc slave1:~/scp ~/.bashrc slave2:~/

在slave1和slave2上执行 source ~/.bashrc 并创建Hadoop数据目录：

mkdir -p /opt/hadoop/data/datanode

六、格式化HDFS并启动集群

首次启动前需格式化NameNode（仅在master执行）：

hdfs namenode -format

启动HDFS和YARN：

start-dfs.shstart-yarn.sh

验证服务是否正常运行：

jps  # 应看到NameNode、SecondaryNameNode、ResourceManager等进程

访问Web UI验证：

HDFS管理界面：http://master:9870
YARN资源管理界面：http://master:8088

七、总结

至此，你已成功在RockyLinux上完成了一个基本的Hadoop大数据集群部署。通过本教程，你掌握了RockyLinux大数据集群部署的核心步骤，包括系统配置、Java环境搭建、Hadoop安装与分布式配置。后续可根据业务需求扩展节点、集成Hive、Spark等组件，打造完整的大数据生态。

记住，稳定的大数据平台离不开良好的运维习惯。建议定期备份NameNode元数据、监控集群健康状态，并根据负载调整资源配置。

希望这篇RockyLinux Hadoop安装与大数据平台搭建教程能帮助你顺利入门大数据领域！如需进一步了解RockyLinux集群配置技巧，欢迎查阅官方文档或社区资源。