当前位置：首页 > Ubuntu > 正文

Ubuntu Sqoop数据迁移实战指南（从零开始掌握Sqoop安装与MySQL到HDFS的数据同步）

主机测评网
Ubuntu
2025-12-09
886

在大数据生态系统中，Sqoop 是一个非常重要的开源工具，用于在关系型数据库（如 MySQL、Oracle）和 Hadoop 生态系统（如 HDFS、Hive、HBase）之间高效地传输批量数据。本教程将手把手教你如何在 Ubuntu 系统上安装并配置 Sqoop，并完成一次从 MySQL 到 HDFS 的完整数据迁移任务。即使你是初学者，也能轻松上手！

一、准备工作

在开始之前，请确保你的 Ubuntu 系统已安装以下组件：

Java 8 或 Java 11（Sqoop 依赖 Java 环境）
Hadoop（建议 Hadoop 2.x 或 3.x）
MySQL 服务器及客户端
基本的 Linux 命令行操作能力

Ubuntu Sqoop数据迁移实战指南（从零开始掌握Sqoop安装与MySQL到HDFS的数据同步） Sqoop数据迁移 Sqoop安装配置大数据ETL工具 Sqoop MySQL到HDFS 第1张

二、安装 Sqoop

1. 下载 Sqoop（以 Sqoop 1.4.7 为例）：

wget https://archive.apache.org/dist/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gztar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gzsudo mv sqoop-1.4.7.bin__hadoop-2.6.0 /usr/local/sqoop

2. 配置环境变量（编辑 ~/.bashrc）：

export SQOOP_HOME=/usr/local/sqoopexport PATH=$PATH:$SQOOP_HOME/bin

然后执行：

source ~/.bashrc

三、配置 Sqoop 连接 MySQL

Sqoop 需要 MySQL 的 JDBC 驱动才能连接数据库。下载并复制驱动到 Sqoop 的 lib 目录：

wget https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-8.0.28.tar.gztar -zxvf mysql-connector-java-8.0.28.tar.gzsudo cp mysql-connector-java-8.0.28/mysql-connector-java-8.0.28.jar /usr/local/sqoop/lib/

四、创建测试数据库和表

CREATE DATABASE testdb;USE testdb;CREATE TABLE employees (  id INT PRIMARY KEY,  name VARCHAR(50),  department VARCHAR(50));INSERT INTO employees VALUES (1, '张三', '技术部'), (2, '李四', '市场部');

五、使用 Sqoop 将 MySQL 数据导入 HDFS

执行以下命令，将 employees 表从 MySQL 导入到 HDFS：

sqoop import \  --connect jdbc:mysql://localhost/testdb \  --username root \  --password your_mysql_password \  --table employees \  --target-dir /user/hadoop/employees_data \  --m 1

参数说明：

--connect：指定 MySQL 数据库连接字符串
--username / --password：数据库账号密码
--table：要导入的表名
--target-dir：HDFS 上的目标目录
--m 1：使用 1 个 Map 任务（适合小数据量）

六、验证数据是否成功导入

使用 Hadoop 命令查看 HDFS 中的数据：

hadoop fs -cat /user/hadoop/employees_data/part-m-00000

如果看到类似以下输出，说明 Ubuntu Sqoop数据迁移 成功：

1,张三,技术部2,李四,市场部

七、常见问题与解决

ClassNotFoundException：检查 MySQL JDBC 驱动是否放入 $SQOOP_HOME/lib
权限错误：确保 Hadoop 用户对 HDFS 目标目录有写权限
连接拒绝：确认 MySQL 允许远程连接（或本地连接），并开放了相应端口

结语

通过本教程，你已经掌握了在 Ubuntu 系统上使用 Sqoop 完成从 MySQL 到 HDFS 的数据迁移。Sqoop 作为一款强大的 大数据ETL工具，不仅能简化数据同步流程，还能与 Hive、HBase 等组件无缝集成。希望你能将所学应用到实际项目中，进一步探索 Sqoop MySQL到HDFS 的更多高级功能，如增量导入、导出等。

关键词回顾：Ubuntu Sqoop数据迁移、Sqoop安装配置、大数据ETL工具、Sqoop MySQL到HDFS