在当今大数据时代,流式计算已成为处理实时数据的核心技术。本文将带你从零开始,在RockyLinux操作系统上部署一套完整的流式计算系统,使用业界主流的Apache Flink作为计算引擎。无论你是运维新手还是开发初学者,只要按照本教程一步步操作,都能成功搭建属于自己的RockyLinux流式计算系统部署环境。
一、准备工作
首先,确保你有一台运行 RockyLinux 8 或 9 的服务器(物理机或虚拟机均可),并具备以下条件:
至少 2 核 CPU、4GB 内存(推荐 8GB) 已安装 Java 11(Flink 依赖) 网络畅通,可访问互联网 拥有 sudo 权限二、安装 Java 11
Apache Flink 需要 Java 环境支持。RockyLinux 默认可能未安装 Java,我们使用 dnf 安装 OpenJDK 11:
如果看到类似 sudo dnf install -y java-11-openjdk-devel# 验证安装java -version openjdk version "11.0.xx"
的输出,说明 Java 已成功安装。
三、下载并安装 Apache Flink
我们以 Flink 1.17.1 为例(请根据 官网选择最新稳定版):
编辑 Flink 配置文件 # 进入 /opt 目录(也可选其他目录)cd /opt# 下载 Flink(替换为最新链接)sudo wget https://archive.apache.org/dist/flink/flink-1.17.1/flink-1.17.1-bin-scala_2.12.tgz# 解压sudo tar -xzf flink-1.17.1-bin-scala_2.12.tgz# 重命名方便管理sudo mv flink-1.17.1 flink 四、配置 Flink(单机模式)
/opt/flink/conf/flink-conf.yaml
:
确保以下关键配置存在(若不存在则添加): 进入 Flink 目录并启动集群: 成功启动后,你会看到类似以下输出: 此时,Flink Web UI 默认运行在 Flink 自带示例程序,我们可以用它来测试流式计算功能: 该命令会提交一个单词计数的流式任务。你可以在 Web UI 的 “Running Jobs” 中看到任务正在运行,证明你的 流式计算平台搭建 已成功! 通过本教程,你已经完成了 RockyLinux流式计算系统部署 的全过程,掌握了 Apache Flink RockyLinux安装 与基本使用。这套系统可用于日志分析、实时监控、IoT 数据处理等场景,是构建现代 RockyLinux实时数据处理 架构的重要一步。希望这篇 流式计算平台搭建 教程能为你打下坚实基础! 提示:生产环境中建议结合 Kafka、HDFS 等组件构建完整流批一体架构。sudo nano /opt/flink/conf/flink-conf.yaml jobmanager.rpc.address: localhostjobmanager.bind-host: 0.0.0.0rest.address: 0.0.0.0rest.bind-address: 0.0.0.0# 可选:调整内存(根据机器配置)jobmanager.memory.process.size: 1024mtaskmanager.memory.process.size: 1024m
五、启动 Flink 服务
cd /opt/flink./bin/start-cluster.sh Starting cluster.Starting standalonesession daemon on host your-hostname.Starting taskexecutor daemon on host your-hostname. http://你的服务器IP:8081
。打开浏览器即可查看集群状态,验证是否部署成功。六、提交一个简单流式作业(测试)
./bin/flink run ./examples/streaming/WordCount.jar 七、常见问题与优化建议
防火墙问题:确保 8081 端口开放(sudo firewall-cmd --add-port=8081/tcp --permanent && sudo firewall-cmd --reload
) 内存不足:若任务频繁失败,适当调高 jobmanager.memory.process.size
和 taskmanager.memory.process.size
生产环境:建议使用集群模式(多节点),并配置高可用(HA) 结语
