在当今数据驱动的时代,构建一个稳定高效的大数据处理平台至关重要。RockyLinux作为CentOS的继任者,以其企业级稳定性与开源社区支持,成为部署大数据集群的理想选择。本教程将详细指导你如何在RockyLinux系统上从零开始搭建一个Hadoop大数据集群,即使是Linux新手也能轻松上手。

在开始之前,请确保你具备以下条件:
为避免网络通信问题,建议先关闭防火墙和SELinux:
# 关闭防火墙sudo systemctl stop firewalldsudo systemctl disable firewalld# 关闭SELinux(临时)setenforce 0# 永久关闭SELinuxsudo sed -i 's/^SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/config假设你的三台机器角色如下:
分别在每台机器上设置主机名:
# 在master上执行sudo hostnamectl set-hostname master# 在slave1上执行sudo hostnamectl set-hostname slave1# 在slave2上执行sudo hostnamectl set-hostname slave2然后在所有节点的 /etc/hosts 文件中添加以下内容:
192.168.1.10 master192.168.1.11 slave1192.168.1.12 slave2Hadoop依赖Java运行环境。我们使用OpenJDK 8或11:
# 安装OpenJDK 11sudo dnf install -y java-11-openjdk-devel# 验证安装java -version设置JAVA_HOME环境变量(在 /etc/profile 末尾添加):
export JAVA_HOME=$(dirname $(dirname $(readlink -f $(which java))))export PATH=$PATH:$JAVA_HOME/bin执行 source /etc/profile 使配置生效。
我们将Hadoop安装在 /opt/hadoop 目录下:
# 下载Hadoop(以3.3.6为例)cd /tmpwget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.6/hadoop-3.3.6.tar.gz# 解压并移动到/opt目录sudo tar -xzf hadoop-3.3.6.tar.gz -C /opt/sudo mv /opt/hadoop-3.3.6 /opt/hadoop# 设置权限sudo chown -R $(whoami):$(whoami) /opt/hadoop编辑 ~/.bashrc 文件,添加以下内容:
export HADOOP_HOME=/opt/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinexport HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop执行 source ~/.bashrc 生效。
进入 $HADOOP_HOME/etc/hadoop 目录,依次修改以下文件:
1. core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property></configuration>2. hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///opt/hadoop/data/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///opt/hadoop/data/datanode</value> </property></configuration>3. yarn-site.xml
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property></configuration>4. mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration>5. workers 文件(原slaves)
slave1slave2使用scp命令将整个Hadoop目录复制到slave1和slave2:
# 在master上执行scp -r /opt/hadoop slave1:/opt/scp -r /opt/hadoop slave2:/opt/# 同时复制.bashrc(包含环境变量)scp ~/.bashrc slave1:~/scp ~/.bashrc slave2:~/在slave1和slave2上执行 source ~/.bashrc 并创建Hadoop数据目录:
mkdir -p /opt/hadoop/data/datanode首次启动前需格式化NameNode(仅在master执行):
hdfs namenode -format启动HDFS和YARN:
start-dfs.shstart-yarn.sh验证服务是否正常运行:
jps # 应看到NameNode、SecondaryNameNode、ResourceManager等进程访问Web UI验证:
至此,你已成功在RockyLinux上完成了一个基本的Hadoop大数据集群部署。通过本教程,你掌握了RockyLinux大数据集群部署的核心步骤,包括系统配置、Java环境搭建、Hadoop安装与分布式配置。后续可根据业务需求扩展节点、集成Hive、Spark等组件,打造完整的大数据生态。
记住,稳定的大数据平台离不开良好的运维习惯。建议定期备份NameNode元数据、监控集群健康状态,并根据负载调整资源配置。
希望这篇RockyLinux Hadoop安装与大数据平台搭建教程能帮助你顺利入门大数据领域!如需进一步了解RockyLinux集群配置技巧,欢迎查阅官方文档或社区资源。
本文由主机测评网于2025-12-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/2025124140.html