随着数据量的爆炸式增长,企业对高效、稳定的大数据处理平台需求日益迫切。Rocky Linux 作为 CentOS 的继任者,凭借其稳定性、开源性和长期支持,成为部署大数据平台的理想选择。本文将手把手教你如何在 Rocky Linux 上搭建一个基础的 Hadoop 分布式集群,并介绍生产环境中的最佳实践。
Rocky Linux 是由 CentOS 创始人 Gregory Kurtzer 发起的社区驱动项目,完全兼容 RHEL(Red Hat Enterprise Linux),提供免费、稳定、安全的企业级操作系统。对于需要长期运行的大数据平台来说,Rocky Linux 提供了:
在开始之前,请确保你有以下资源:
为每台机器设置唯一主机名,并在所有节点的 /etc/hosts 文件中添加彼此的 IP 与主机名映射。例如:
# 在所有节点执行sudo hostnamectl set-hostname node1 # 主节点sudo hostnamectl set-hostname node2 # 工作节点sudo hostnamectl set-hostname node3 # 工作节点# 编辑 /etc/hosts,添加如下内容(IP 替换为实际地址)192.168.1.10 node1192.168.1.11 node2192.168.1.12 node3
Hadoop 依赖 Java 运行环境。Rocky Linux 推荐使用 OpenJDK 11:
sudo dnf install -y java-11-openjdk-devel# 验证安装java -version
设置 JAVA_HOME 环境变量(在 /etc/profile.d/java.sh 中):
echo 'export JAVA_HOME=$(dirname $(dirname $(readlink $(readlink $(which javac)))))' | sudo tee /etc/profile.d/java.shecho 'export PATH=$JAVA_HOME/bin:$PATH' | sudo tee -a /etc/profile.d/java.shsource /etc/profile.d/java.sh
出于安全考虑,Hadoop 应运行在专用用户下:
# 所有节点执行sudo useradd -m hadoopusersudo passwd hadoopuser
然后在主节点(node1)上生成 SSH 密钥,并分发到所有节点:
su - hadoopuserssh-keygen -t rsa -P '' -f ~/.ssh/id_rsassh-copy-id hadoopuser@node1ssh-copy-id hadoopuser@node2ssh-copy-id hadoopuser@node3
测试免密登录:ssh node2,应无需密码即可登录。
从 Apache 官网下载 Hadoop(以 3.3.6 为例):
cd /tmpwget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gztar -xzf hadoop-3.3.6.tar.gz -C /opt/sudo chown -R hadoopuser:hadoopuser /opt/hadoop-3.3.6ln -s /opt/hadoop-3.3.6 /opt/hadoop
配置环境变量(在 hadoopuser 的 ~/.bashrc 中):
echo 'export HADOOP_HOME=/opt/hadoop' >> ~/.bashrcecho 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bashrcecho 'export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop' >> ~/.bashrcsource ~/.bashrc
编辑以下文件(位于 $HADOOP_HOME/etc/hadoop/):
core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://node1:9000</value> </property></configuration>
hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///opt/hadoop/data/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///opt/hadoop/data/datanode</value> </property></configuration>
workers(原 slaves 文件)
node2node3
仅在主节点执行:
hdfs namenode -format# 启动 HDFSstart-dfs.sh
访问 http://node1:9870 即可查看 HDFS Web UI。
在真实企业环境中部署 Rocky Linux 大数据平台时,还需注意以下几点:
通过以上步骤,你已在 Rocky Linux 上成功部署了一个基础的 Hadoop 分布式集群。Rocky Linux 凭借其企业级稳定性和开源特性,为大数据平台提供了坚实的基础。无论是学习、测试还是生产环境,这套方案都具备良好的扩展性和可靠性。掌握 Rocky Linux、大数据平台、集群部署 和 Hadoop安装 技能,将为你在数据工程领域打下坚实基础。
下一步,你可以尝试集成 Hive、Spark 或 Flink,构建更完整的大数据生态体系!
本文由主机测评网于2025-12-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/2025121994.html