当前位置：首页 > Centos > 正文

构建企业级大数据基础设施（基于CentOS的大数据云平台搭建完整教程）

主机测评网
Centos
2025-12-22
798

在当今数据驱动的时代，构建一个稳定、高效的大数据处理平台已成为企业数字化转型的关键。本文将手把手教你如何在 CentOS 系统上搭建一套完整的 大数据云平台，即使你是零基础的小白，也能轻松上手！

构建企业级大数据基础设施（基于CentOS的大数据云平台搭建完整教程） Centos大数据云平台大数据平台搭建 Centos云计算开源大数据平台第1张

一、准备工作：环境与工具

首先，确保你有一台运行 CentOS 7 或 CentOS 8 的服务器（物理机或虚拟机均可）。建议配置至少 4 核 CPU、8GB 内存、50GB 硬盘空间。

我们将使用以下开源组件构建平台：

Hadoop（分布式存储与计算）
Spark（内存计算引擎）
Hive（数据仓库）
Zookeeper（协调服务）

二、安装 Java 环境

所有大数据组件都依赖 Java，因此第一步是安装 OpenJDK。

# 安装 OpenJDK 8sudo yum install -y java-1.8.0-openjdk-devel# 验证安装java -version# 设置 JAVA_HOME（添加到 ~/.bashrc）echo 'export JAVA_HOME=$(dirname $(dirname $(readlink -f $(which java))))' >> ~/.bashrcsource ~/.bashrc

三、配置 SSH 免密登录（单机伪分布式模式）

Hadoop 需要通过 SSH 管理节点，即使是单机部署也需要配置本地免密登录。

# 生成 SSH 密钥ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa# 将公钥加入授权列表cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keyschmod 0600 ~/.ssh/authorized_keys# 测试免密登录ssh localhost

四、安装 Hadoop

我们以 Hadoop 3.3.6 为例进行安装。

# 下载并解压 Hadoopwget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.6/hadoop-3.3.6.tar.gztar -zxvf hadoop-3.3.6.tar.gz -C /opt/# 创建软链接方便管理ln -s /opt/hadoop-3.3.6 /opt/hadoop# 配置环境变量echo 'export HADOOP_HOME=/opt/hadoop' >> ~/.bashrcecho 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bashrcsource ~/.bashrc

接着编辑 Hadoop 配置文件（位于 $HADOOP_HOME/etc/hadoop/）：

core-site.xml：设置 HDFS 地址
hdfs-site.xml：配置副本数和数据目录
mapred-site.xml：指定 MapReduce 框架
yarn-site.xml：配置资源管理器

五、格式化 HDFS 并启动服务

# 格式化 NameNodehdfs namenode -format# 启动 HDFS 和 YARNstart-dfs.shstart-yarn.sh# 验证进程jps# 应看到 NameNode、DataNode、ResourceManager、NodeManager 等进程

六、安装 Spark 与 Hive（可选但推荐）

为了增强分析能力，建议集成 Spark 和 Hive：

# 安装 Sparkwget https://archive.apache.org/dist/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgztar -zxvf spark-3.3.2-bin-hadoop3.tgz -C /opt/ln -s /opt/spark-3.3.2-bin-hadoop3 /opt/spark# 配置 Spark 环境变量echo 'export SPARK_HOME=/opt/spark' >> ~/.bashrcecho 'export PATH=$PATH:$SPARK_HOME/bin' >> ~/.bashrcsource ~/.bashrc