当前位置：首页 > Ubuntu > 正文

Ubuntu流式计算系统部署（手把手教你搭建Apache Flink实时数据处理平台）

主机测评网
Ubuntu
2025-12-13
311

在当今大数据时代，流式计算已成为处理实时数据的核心技术。本文将带你从零开始，在Ubuntu操作系统上部署一套完整的流式计算系统，使用业界主流的开源框架 Apache Flink。无论你是刚接触大数据的小白，还是有一定经验的开发者，都能轻松上手。

什么是流式计算？

流式计算是一种处理无限数据流的计算模型，与传统的批处理不同，它能实时响应数据变化，适用于监控、金融交易、IoT设备数据分析等场景。

Ubuntu流式计算系统部署（手把手教你搭建Apache Flink实时数据处理平台） Ubuntu流式计算系统部署 Apache Flink Ubuntu安装实时数据处理平台搭建流式计算入门教程第1张

准备工作

在开始之前，请确保你有一台运行 Ubuntu 20.04 或 22.04 的服务器或虚拟机，并具备以下条件：

至少 2GB 内存（推荐 4GB+）
已安装 Java 8 或 Java 11（Flink 官方推荐）
拥有 sudo 权限

第一步：安装 Java 环境

Apache Flink 基于 Java 开发，因此首先需要安装 Java。我们以 OpenJDK 11 为例：

sudo apt updatesudo apt install openjdk-11-jdk -y# 验证安装java -version

如果看到类似 openjdk version "11.0.x" 的输出，说明 Java 已成功安装。

第二步：下载并安装 Apache Flink

访问 Apache Flink 官网获取最新稳定版。截至本文撰写时，最新版本为 1.18.0。

# 进入家目录cd ~# 下载 Flink（请根据官网更新链接）wget https://archive.apache.org/dist/flink/flink-1.18.0/flink-1.18.0-bin-scala_2.12.tgz# 解压tar -xzf flink-1.18.0-bin-scala_2.12.tgz# 重命名方便访问mv flink-1.18.0 flink

第三步：启动 Flink 集群

Flink 自带一个本地单机模式的集群，非常适合学习和测试。进入 Flink 目录并启动：

cd ~/flink./bin/start-cluster.sh

成功启动后，你会看到类似以下输出：

Starting cluster.Starting standalonesession daemon on host your-hostname.Starting taskexecutor daemon on host your-hostname.

第四步：访问 Web UI

Flink 提供了直观的 Web 管理界面，默认运行在 http://localhost:8081。如果你在本地 Ubuntu 桌面环境，可直接浏览器打开；如果是远程服务器，请确保防火墙开放 8081 端口，并通过 http://你的服务器IP:8081 访问。

在 Web UI 中，你可以查看任务状态、提交作业、监控资源使用情况等，是运维和开发的重要工具。

第五步：运行第一个流式作业

Flink 自带示例程序，我们可以运行一个简单的 WordCount 流式作业来验证系统是否正常工作：

./bin/flink run ./examples/streaming/WordCount.jar

该命令会提交一个流式 WordCount 任务。你可以在 Web UI 的 “Running Jobs” 中看到它正在运行。虽然这个例子没有真实数据源，但它证明了你的 Ubuntu流式计算系统部署已成功完成！

常见问题与优化建议

内存不足：若机器内存较小，可在 conf/flink-conf.yaml 中调整 jobmanager.memory.process.size 和 taskmanager.memory.process.size。
端口冲突：确保 8081、6123 等默认端口未被占用。
生产环境：建议使用 Standalone Cluster 或 Kubernetes 部署多节点集群，提升高可用性。