当前位置:首页 > Ubuntu > 正文

Ubuntu大数据集群部署(手把手教你从零搭建Hadoop集群)

在当今数据驱动的时代,Ubuntu大数据集群部署已成为企业处理海量数据的关键技术。本教程将面向零基础用户,详细讲解如何在多台 Ubuntu 服务器上搭建一个功能完整的 Hadoop 集群,涵盖网络配置、SSH 免密登录、Hadoop 安装与配置等核心步骤。

Ubuntu大数据集群部署(手把手教你从零搭建Hadoop集群) Ubuntu大数据集群部署  Hadoop集群安装 Ubuntu Hadoop教程 大数据环境搭建 第1张

一、准备工作

你需要准备以下资源:

  • 至少 3 台运行 Ubuntu 20.04/22.04 的服务器(1 主节点 + 2 从节点)
  • 每台服务器至少 2GB 内存、20GB 硬盘空间
  • 稳定的网络连接,确保各节点可互相通信
  • Java 8 或 Java 11(Hadoop 依赖 Java 环境)

二、基础环境配置

首先,在所有节点上执行以下操作:

1. 设置主机名和 hosts 文件

假设你的主节点为 master,从节点为 slave1slave2

在每台机器上编辑 /etc/hostname

# 在 master 节点执行sudo hostnamectl set-hostname master# 在 slave1 节点执行sudo hostnamectl set-hostname slave1# 在 slave2 节点执行sudo hostnamectl set-hostname slave2  

然后在所有节点的 /etc/hosts 中添加如下内容(替换为你的实际 IP):

192.168.1.10 master192.168.1.11 slave1192.168.1.12 slave2  

2. 安装 Java

在所有节点上安装 OpenJDK:

sudo apt updatesudo apt install openjdk-8-jdk -y# 验证安装java -version  

三、配置 SSH 免密登录

Hadoop 需要主节点能无密码登录所有从节点。在 master 节点上执行:

# 生成 SSH 密钥(一路回车)ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa# 将公钥复制到所有节点(包括自己)ssh-copy-id masterssh-copy-id slave1ssh-copy-id slave2  

测试是否可以免密登录:ssh slave1,若无需输入密码即成功。

四、安装与配置 Hadoop

我们以 Hadoop 3.3.6 为例(请根据官网下载最新稳定版)。

1. 下载并解压 Hadoop

cd ~wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gztar -xzvf hadoop-3.3.6.tar.gzmv hadoop-3.3.6 /usr/local/hadoop  

2. 配置环境变量

编辑 ~/.bashrc,在末尾添加:

export HADOOP_HOME=/usr/local/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinexport HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexport JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64  

然后执行:

source ~/.bashrc

3. 修改 Hadoop 配置文件

进入 $HADOOP_HOME/etc/hadoop 目录,依次修改以下文件:

core-site.xml

<configuration>  <property>    <name>fs.defaultFS</name>    <value>hdfs://master:9000</value>  </property></configuration>  

hdfs-site.xml

<configuration>  <property>    <name>dfs.replication</name>    <value>2</value>  </property>  <property>    <name>dfs.namenode.name.dir</name>    <value>file:///usr/local/hadoop/data/namenode</value>  </property>  <property>    <name>dfs.datanode.data.dir</name>    <value>file:///usr/local/hadoop/data/datanode</value>  </property></configuration>  

workers(原 slaves 文件)

slave1slave2  

yarn-site.xml

<configuration>  <property>    <name>yarn.nodemanager.aux-services</name>    <value>mapreduce_shuffle</value>  </property>  <property>    <name>yarn.resourcemanager.hostname</name>    <value>master</value>  </property></configuration>  

4. 分发 Hadoop 到从节点

scp -r /usr/local/hadoop slave1:/usr/local/scp -r /usr/local/hadoop slave2:/usr/local/  

五、格式化 NameNode 并启动集群

仅在 master 节点执行:

# 格式化 HDFShdfs namenode -format# 启动 HDFSstart-dfs.sh# 启动 YARNstart-yarn.sh  

访问以下地址验证集群状态:

六、总结

通过以上步骤,你已成功完成 Ubuntu大数据集群部署。这套环境可用于学习 Hadoop、Spark 等大数据技术,也可作为生产环境的基础。记住定期备份配置文件,并根据实际需求调整参数。如果你是初学者,建议先在虚拟机中练习,熟练后再部署到物理服务器。

关键词回顾:Ubuntu大数据集群部署、Hadoop集群安装、Ubuntu Hadoop教程、大数据环境搭建。