当前位置:首页 > Ubuntu > 正文

Ubuntu Hadoop安装配置指南(手把手教你从零搭建Hadoop大数据环境)

在当今大数据时代,Hadoop 作为开源分布式计算框架,被广泛应用于海量数据的存储与处理。对于初学者来说,在 Ubuntu 系统上安装和配置 Hadoop 是入门大数据技术的重要一步。本教程将详细讲解如何在 Ubuntu 上完成 Ubuntu Hadoop安装 与基础配置,即使是小白也能轻松上手!

Ubuntu Hadoop安装配置指南(手把手教你从零搭建Hadoop大数据环境) Hadoop安装  Hadoop配置教程 Ubuntu大数据平台搭建 Hadoop单机模式配置 第1张

一、准备工作

在开始安装前,请确保你的系统满足以下条件:

  • 操作系统:Ubuntu 20.04 LTS 或更高版本
  • 已安装 Java(Hadoop 依赖 Java 运行环境)
  • 具备 sudo 权限的用户账户

1. 安装 Java

打开终端,执行以下命令安装 OpenJDK:

sudo apt updatesudo apt install openjdk-8-jdk -y

验证 Java 是否安装成功:

java -version

你应该看到类似如下输出:

openjdk version "1.8.0_362"OpenJDK Runtime Environment (build 1.8.0_362-8u362-ga-0ubuntu1~20.04-b09)OpenJDK 64-Bit Server VM (build 25.362-b09, mixed mode)

二、下载并安装 Hadoop

1. 创建 Hadoop 用户(可选但推荐)

为安全起见,建议创建专用用户运行 Hadoop:

sudo adduser hadoopusersudo usermod -aG sudo hadoopusersu - hadoopuser

2. 下载 Hadoop

访问 Apache Hadoop 官网 获取最新稳定版链接。以 Hadoop 3.3.6 为例:

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gztar -xzvf hadoop-3.3.6.tar.gzsudo mv hadoop-3.3.6 /usr/local/hadoop

三、配置 Hadoop 环境变量

编辑用户的 .bashrc 文件:

nano ~/.bashrc

在文件末尾添加以下内容(请根据你的 Java 和 Hadoop 实际路径调整):

# Hadoop Environment Variablesexport JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64export HADOOP_HOME=/usr/local/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinexport HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

保存后,执行以下命令使配置生效:

source ~/.bashrc

四、配置 Hadoop 单机模式(伪分布式)

Hadoop 支持三种运行模式:本地模式、伪分布式模式和完全分布式模式。本教程以 Hadoop单机模式配置 为主,适合学习和开发测试。

1. 修改 core-site.xml

nano $HADOOP_HOME/etc/hadoop/core-site.xml

在 <configuration> 标签内添加:

<property>  <name>fs.defaultFS</name>  <value>hdfs://localhost:9000</value></property>

2. 修改 hdfs-site.xml

nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

添加以下内容(replication 设为 1,因为是单机):

<property>  <name>dfs.replication</name>  <value>1</value></property><property>  <name>dfs.namenode.name.dir</name>  <value>file:///usr/local/hadoop/data/namenode</value></property><property>  <name>dfs.datanode.data.dir</name>  <value>file:///usr/local/hadoop/data/datanode</value></property>

3. 创建 HDFS 数据目录

mkdir -p /usr/local/hadoop/data/namenodemkdir -p /usr/local/hadoop/data/datanode

4. 配置 yarn-site.xml(可选)

如果你打算使用 YARN 资源管理器,编辑 yarn-site.xml:

<property>  <name>yarn.nodemanager.aux-services</name>  <value>mapreduce_shuffle</value></property>

五、格式化 HDFS 并启动 Hadoop

首次启动前需格式化 NameNode:

hdfs namenode -format

启动 HDFS 和 YARN:

start-dfs.shstart-yarn.sh

验证是否成功:

jps

你应该看到如下进程(可能略有不同):

NameNodeDataNodeSecondaryNameNodeResourceManagerNodeManager

你也可以通过浏览器访问 Web UI:

六、总结

恭喜你!你已经成功完成了 Ubuntu Hadoop安装 与基础配置。通过本教程,你掌握了 Hadoop配置教程 的核心步骤,包括 Java 环境搭建、Hadoop 安装、环境变量设置以及伪分布式模式的配置。这为你后续学习 MapReduce、Hive、Spark 等大数据组件打下了坚实基础。

记住,Ubuntu大数据平台搭建 是一个循序渐进的过程。建议先在单机模式下熟悉 Hadoop 命令和工作机制,再尝试搭建多节点集群。希望这篇 Hadoop单机模式配置 指南能助你在大数据之路上迈出成功的第一步!