本教程面向零基础读者,详细讲解如何在VMware虚拟机中安装CentOS7,并以此为基础搭建一套完整的Hadoop集群部署环境。内容涵盖网络配置、JDK安装、Hadoop配置及集群启动验证,帮助你轻松入门大数据平台搭建与Hadoop分布式环境构建。
首先下载并安装VMware Workstation(建议15及以上版本),然后准备CentOS7镜像。在VMware中创建三台虚拟机(node1、node2、node3),每台分配2GB内存、20GB硬盘,网络适配器选择NAT模式。安装时选择最小安装,并配置好root密码。安装完成后,登录系统并使用ip addr查看IP地址,记录下每台机器的IP。
为方便集群通信,需要修改三台虚拟机的主机名并配置hosts文件。以node1为例:
# 修改主机名hostnamectl set-hostname node1# 编辑hosts文件vi /etc/hosts# 添加以下内容(根据实际IP填写)192.168.xxx.101 node1192.168.xxx.102 node2192.168.xxx.103 node3 配置完成后,关闭防火墙(或开放所需端口):systemctl stop firewalld && systemctl disable firewalld。并测试三台机器之间的连通性:ping node2。
Hadoop需要Java环境,这里使用JDK 8。在每台机器上执行以下步骤:
# 下载JDK(以jdk-8u202-linux-x64.tar.gz为例)tar -zxvf jdk-8u202-linux-x64.tar.gz -C /usr/local/# 配置环境变量vi /etc/profile# 在文件末尾添加export JAVA_HOME=/usr/local/jdk1.8.0_202export PATH=$PATH:$JAVA_HOME/bin# 使配置生效source /etc/profile# 验证安装java -version 下载Hadoop(如hadoop-3.3.4.tar.gz),解压到/usr/local/hadoop。然后修改核心配置文件,实现Hadoop分布式环境。主要配置文件包括:
core-site.xml:指定NameNode地址。hdfs-site.xml:设置数据副本数及NameNode/DataNode目录。mapred-site.xml:指定MapReduce运行框架为YARN。yarn-site.xml:配置YARN相关参数。workers:列出所有DataNode主机名。以下以node1为主节点(NameNode)的配置示例:
# core-site.xml fs.defaultFS hdfs://node1:9000 # hdfs-site.xml dfs.replication 2 # workersnode1node2node3 配置完成后,将/usr/local/hadoop文件夹复制到其他节点:scp -r /usr/local/hadoop node2:/usr/local/,并同样配置环境变量。
在node1上首次启动需要格式化NameNode:
cd /usr/local/hadoopbin/hdfs namenode -formatsbin/start-all.sh # 启动所有HDFS和YARN服务 启动后,使用jps命令查看各节点进程:在node1上应有NameNode、ResourceManager、SecondaryNameNode等;node2、node3上应有DataNode、NodeManager。也可以通过浏览器访问http://node1:9870查看HDFS状态,访问http://node1:8088查看YARN集群。至此,一套基于VMware与CentOS7的Hadoop集群部署已完成,你可以开始进行大数据平台搭建后的测试与开发。
—— 本教程涵盖关键词:Hadoop集群部署、VMware CentOS7、大数据平台搭建、Hadoop分布式环境 ——
本文由主机测评网于2026-02-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260227706.html