当前位置:首页 > RockyLinux > 正文

RockyLinux大数据集群部署(手把手教你从零搭建Hadoop大数据平台)

在当今数据驱动的时代,构建一个稳定高效的大数据处理平台至关重要。RockyLinux作为CentOS的继任者,以其企业级稳定性与开源社区支持,成为部署大数据集群的理想选择。本教程将详细指导你如何在RockyLinux系统上从零开始搭建一个Hadoop大数据集群,即使是Linux新手也能轻松上手。

RockyLinux大数据集群部署(手把手教你从零搭建Hadoop大数据平台) RockyLinux大数据集群部署 RockyLinux Hadoop安装 大数据平台搭建教程 RockyLinux集群配置 第1张

一、环境准备

在开始之前,请确保你具备以下条件:

  • 至少3台RockyLinux 8或9服务器(可使用虚拟机)
  • 每台机器至少2GB内存、20GB硬盘空间
  • 稳定的网络连接,并能互相通过主机名通信
  • root权限或sudo权限

二、基础配置(所有节点)

1. 关闭防火墙和SELinux

为避免网络通信问题,建议先关闭防火墙和SELinux:

# 关闭防火墙sudo systemctl stop firewalldsudo systemctl disable firewalld# 关闭SELinux(临时)setenforce 0# 永久关闭SELinuxsudo sed -i 's/^SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/config

2. 配置主机名和hosts文件

假设你的三台机器角色如下:

  • master:主节点(NameNode + ResourceManager)
  • slave1、slave2:工作节点(DataNode + NodeManager)

分别在每台机器上设置主机名:

# 在master上执行sudo hostnamectl set-hostname master# 在slave1上执行sudo hostnamectl set-hostname slave1# 在slave2上执行sudo hostnamectl set-hostname slave2

然后在所有节点的 /etc/hosts 文件中添加以下内容:

192.168.1.10 master192.168.1.11 slave1192.168.1.12 slave2

三、安装Java环境

Hadoop依赖Java运行环境。我们使用OpenJDK 8或11:

# 安装OpenJDK 11sudo dnf install -y java-11-openjdk-devel# 验证安装java -version

设置JAVA_HOME环境变量(在 /etc/profile 末尾添加):

export JAVA_HOME=$(dirname $(dirname $(readlink -f $(which java))))export PATH=$PATH:$JAVA_HOME/bin

执行 source /etc/profile 使配置生效。

四、安装Hadoop(仅在master节点)

我们将Hadoop安装在 /opt/hadoop 目录下:

# 下载Hadoop(以3.3.6为例)cd /tmpwget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.6/hadoop-3.3.6.tar.gz# 解压并移动到/opt目录sudo tar -xzf hadoop-3.3.6.tar.gz -C /opt/sudo mv /opt/hadoop-3.3.6 /opt/hadoop# 设置权限sudo chown -R $(whoami):$(whoami) /opt/hadoop

配置Hadoop环境变量

编辑 ~/.bashrc 文件,添加以下内容:

export HADOOP_HOME=/opt/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinexport HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

执行 source ~/.bashrc 生效。

关键配置文件修改

进入 $HADOOP_HOME/etc/hadoop 目录,依次修改以下文件:

1. core-site.xml

<configuration>  <property>    <name>fs.defaultFS</name>    <value>hdfs://master:9000</value>  </property></configuration>

2. hdfs-site.xml

<configuration>  <property>    <name>dfs.replication</name>    <value>2</value>  </property>  <property>    <name>dfs.namenode.name.dir</name>    <value>file:///opt/hadoop/data/namenode</value>  </property>  <property>    <name>dfs.datanode.data.dir</name>    <value>file:///opt/hadoop/data/datanode</value>  </property></configuration>

3. yarn-site.xml

<configuration>  <property>    <name>yarn.nodemanager.aux-services</name>    <value>mapreduce_shuffle</value>  </property>  <property>    <name>yarn.resourcemanager.hostname</name>    <value>master</value>  </property></configuration>

4. mapred-site.xml

<configuration>  <property>    <name>mapreduce.framework.name</name>    <value>yarn</value>  </property></configuration>

5. workers 文件(原slaves)

slave1slave2

五、分发Hadoop到其他节点

使用scp命令将整个Hadoop目录复制到slave1和slave2:

# 在master上执行scp -r /opt/hadoop slave1:/opt/scp -r /opt/hadoop slave2:/opt/# 同时复制.bashrc(包含环境变量)scp ~/.bashrc slave1:~/scp ~/.bashrc slave2:~/

在slave1和slave2上执行 source ~/.bashrc 并创建Hadoop数据目录:

mkdir -p /opt/hadoop/data/datanode

六、格式化HDFS并启动集群

首次启动前需格式化NameNode(仅在master执行):

hdfs namenode -format

启动HDFS和YARN:

start-dfs.shstart-yarn.sh

验证服务是否正常运行:

jps  # 应看到NameNode、SecondaryNameNode、ResourceManager等进程

访问Web UI验证:

七、总结

至此,你已成功在RockyLinux上完成了一个基本的Hadoop大数据集群部署。通过本教程,你掌握了RockyLinux大数据集群部署的核心步骤,包括系统配置、Java环境搭建、Hadoop安装与分布式配置。后续可根据业务需求扩展节点、集成Hive、Spark等组件,打造完整的大数据生态。

记住,稳定的大数据平台离不开良好的运维习惯。建议定期备份NameNode元数据、监控集群健康状态,并根据负载调整资源配置。

希望这篇RockyLinux Hadoop安装大数据平台搭建教程能帮助你顺利入门大数据领域!如需进一步了解RockyLinux集群配置技巧,欢迎查阅官方文档或社区资源。