当前位置:首页 > 系统教程 > 正文

Hadoop3.3.5完全分布式集群搭建教程(基于CentOS7.9虚拟机环境)

Hadoop3.3.5完全分布式集群搭建教程(基于CentOS7.9虚拟机环境)

欢迎来到本教程!在这里,我们将手把手教你如何使用三台CentOS7.9虚拟机,搭建一套Hadoop3.3.5完全分布式集群,适用于虚拟机测试环境。无论你是大数据初学者还是正在准备实验环境的开发者,本文都能帮助你顺利搭建起自己的Hadoop集群。

1. 环境准备

我们需要三台安装CentOS7.9的虚拟机,建议每台至少分配2GB内存和20GB磁盘。为方便描述,我们给三台机器分配以下角色和网络信息:

  • hadoop-master (NameNode, ResourceManager) — IP: 192.168.100.10
  • hadoop-slave1 (DataNode, NodeManager) — IP: 192.168.100.11
  • hadoop-slave2 (DataNode, NodeManager) — IP: 192.168.100.12

确保三台虚拟机网络互通,并能访问外网(用于下载软件)。我们将在hadoop-master上执行大部分配置,然后同步到其他节点。

Hadoop3.3.5完全分布式集群搭建教程(基于CentOS7.9虚拟机环境) Hadoop3.3.5 CentOS7.9 完全分布式集群 虚拟机测试环境 第1张

2. 基础网络配置

每台机器都需要配置静态IP和主机名。首先修改/etc/hostname文件,分别设置为主机名。然后编辑/etc/sysconfig/network-scripts/ifcfg-ens33(网卡名称可能不同),设置BOOTPROTO=static,并添加IPADDR、NETMASK、GATEWAY。最后在所有节点的/etc/hosts文件中添加以下内容:

192.168.100.10 hadoop-master192.168.100.11 hadoop-slave1192.168.100.12 hadoop-slave2

3. 安装JDK 1.8

Hadoop3.3.5需要JDK 8及以上版本。我们使用Oracle JDK 1.8。下载jdk-8u202-linux-x64.tar.gz,上传至hadoop-master/usr/local目录,解压并设置环境变量。在/etc/profile末尾添加:

export JAVA_HOME=/usr/local/jdk1.8.0_202export PATH=$PATH:$JAVA_HOME/bin

执行source /etc/profile使生效,并用java -version验证。之后将JDK目录和环境变量配置分发到hadoop-slave1hadoop-slave2

4. SSH免密登录配置

hadoop-master上生成SSH密钥对:ssh-keygen -t rsa。然后将公钥复制到所有节点(包括自身):

ssh-copy-id hadoop-masterssh-copy-id hadoop-slave1ssh-copy-id hadoop-slave2

验证ssh hadoop-slave1是否无需密码。

5. 安装Hadoop 3.3.5

下载Hadoop安装包hadoop-3.3.5.tar.gz,解压到/usr/local/hadoop。设置环境变量,在/etc/profile中添加:

export HADOOP_HOME=/usr/local/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

同样,将/usr/local/hadoop目录和环境变量分发到所有节点。

6. 修改Hadoop配置文件

进入$HADOOP_HOME/etc/hadoop,修改以下文件以实现完全分布式集群

  • core-site.xml:配置默认文件系统为hdfs://hadoop-master:9000
  • hdfs-site.xml:设置副本数为2,关闭权限检查(测试环境)
  • mapred-site.xml:指定YARN为MapReduce框架
  • yarn-site.xml:配置YARN ResourceManager地址和节点管理器
  • workers:列出所有DataNode主机名

示例core-site.xml

            fs.defaultFS        hdfs://hadoop-master:9000    

其他配置文件类似,注意yarn-site.xml中需指定yarn.resourcemanager.hostname为hadoop-master。

7. 启动集群

首次启动前需要在hadoop-master上格式化NameNode:

hdfs namenode -format

然后执行一键启动脚本:

start-dfs.shstart-yarn.sh

或在hadoop-master上使用start-all.sh(不推荐)。

8. 验证集群

在每台机器上执行jps,查看Java进程。在hadoop-master上应有NameNode、ResourceManager、SecondaryNameNode;在Slave上应有DataNode和NodeManager。然后通过浏览器访问:

  • HDFS Web UI:http://192.168.100.10:9870
  • YARN Web UI:http://192.168.100.10:8088

✅ 至此,你已经在三台CentOS7.9虚拟机上成功搭建了一个Hadoop3.3.5完全分布式集群!你可以开始运行MapReduce任务,体验大数据平台的魅力。如果在搭建过程中遇到问题,欢迎交流探讨。

本文关键词:Hadoop3.3.5, CentOS7.9, 完全分布式集群, 虚拟机测试环境