当前位置:首页 > 系统教程 > 正文

基于VMware与CentOS7的Hadoop集群部署全景指南

基于VMware与CentOS7的Hadoop集群部署全景指南

从零开始搭建大数据平台(小白保姆级教程)

基于VMware与CentOS7的Hadoop集群部署全景指南 Hadoop集群部署  VMware CentOS7 大数据平台搭建 Hadoop分布式环境 第1张

本教程面向零基础读者,详细讲解如何在VMware虚拟机中安装CentOS7,并以此为基础搭建一套完整的Hadoop集群部署环境。内容涵盖网络配置、JDK安装、Hadoop配置及集群启动验证,帮助你轻松入门大数据平台搭建Hadoop分布式环境构建。

一、环境准备:VMware与CentOS7安装

首先下载并安装VMware Workstation(建议15及以上版本),然后准备CentOS7镜像。在VMware中创建三台虚拟机(node1、node2、node3),每台分配2GB内存、20GB硬盘,网络适配器选择NAT模式。安装时选择最小安装,并配置好root密码。安装完成后,登录系统并使用ip addr查看IP地址,记录下每台机器的IP。

二、网络配置与主机名映射

为方便集群通信,需要修改三台虚拟机的主机名并配置hosts文件。以node1为例:

# 修改主机名hostnamectl set-hostname node1# 编辑hosts文件vi /etc/hosts# 添加以下内容(根据实际IP填写)192.168.xxx.101 node1192.168.xxx.102 node2192.168.xxx.103 node3

配置完成后,关闭防火墙(或开放所需端口):systemctl stop firewalld && systemctl disable firewalld。并测试三台机器之间的连通性:ping node2

三、安装JDK(Hadoop依赖)

Hadoop需要Java环境,这里使用JDK 8。在每台机器上执行以下步骤:

# 下载JDK(以jdk-8u202-linux-x64.tar.gz为例)tar -zxvf jdk-8u202-linux-x64.tar.gz -C /usr/local/# 配置环境变量vi /etc/profile# 在文件末尾添加export JAVA_HOME=/usr/local/jdk1.8.0_202export PATH=$PATH:$JAVA_HOME/bin# 使配置生效source /etc/profile# 验证安装java -version

四、Hadoop集群部署与配置

下载Hadoop(如hadoop-3.3.4.tar.gz),解压到/usr/local/hadoop。然后修改核心配置文件,实现Hadoop分布式环境。主要配置文件包括:

  • core-site.xml:指定NameNode地址。
  • hdfs-site.xml:设置数据副本数及NameNode/DataNode目录。
  • mapred-site.xml:指定MapReduce运行框架为YARN。
  • yarn-site.xml:配置YARN相关参数。
  • workers:列出所有DataNode主机名。

以下以node1为主节点(NameNode)的配置示例:

# core-site.xml            fs.defaultFS        hdfs://node1:9000    # hdfs-site.xml            dfs.replication        2    # workersnode1node2node3

配置完成后,将/usr/local/hadoop文件夹复制到其他节点:scp -r /usr/local/hadoop node2:/usr/local/,并同样配置环境变量。

五、启动集群与验证

在node1上首次启动需要格式化NameNode:

cd /usr/local/hadoopbin/hdfs namenode -formatsbin/start-all.sh   # 启动所有HDFS和YARN服务

启动后,使用jps命令查看各节点进程:在node1上应有NameNode、ResourceManager、SecondaryNameNode等;node2、node3上应有DataNode、NodeManager。也可以通过浏览器访问http://node1:9870查看HDFS状态,访问http://node1:8088查看YARN集群。至此,一套基于VMware与CentOS7的Hadoop集群部署已完成,你可以开始进行大数据平台搭建后的测试与开发。

—— 本教程涵盖关键词:Hadoop集群部署、VMware CentOS7、大数据平台搭建、Hadoop分布式环境 ——