在当今数据驱动的时代,构建一个稳定高效的大数据处理平台至关重要。RockyLinux作为CentOS的继任者,以其企业级稳定性与开源社区支持,成为部署大数据集群的理想选择。本教程将详细指导你如何在RockyLinux系统上从零开始搭建一个Hadoop大数据集群,即使是Linux新手也能轻松上手。

一、环境准备
在开始之前,请确保你具备以下条件:
至少3台RockyLinux 8或9服务器(可使用虚拟机) 每台机器至少2GB内存、20GB硬盘空间 稳定的网络连接,并能互相通过主机名通信 root权限或sudo权限二、基础配置(所有节点)
1. 关闭防火墙和SELinux
为避免网络通信问题,建议先关闭防火墙和SELinux:
假设你的三台机器角色如下: 分别在每台机器上设置主机名: 然后在所有节点的 Hadoop依赖Java运行环境。我们使用OpenJDK 8或11: 设置JAVA_HOME环境变量(在 执行 我们将Hadoop安装在 编辑 执行 进入 # 关闭防火墙sudo systemctl stop firewalldsudo systemctl disable firewalld# 关闭SELinux(临时)setenforce 0# 永久关闭SELinuxsudo sed -i 's/^SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/config2. 配置主机名和hosts文件
# 在master上执行sudo hostnamectl set-hostname master# 在slave1上执行sudo hostnamectl set-hostname slave1# 在slave2上执行sudo hostnamectl set-hostname slave2/etc/hosts
文件中添加以下内容:192.168.1.10 master192.168.1.11 slave1192.168.1.12 slave2三、安装Java环境
# 安装OpenJDK 11sudo dnf install -y java-11-openjdk-devel# 验证安装java -version/etc/profile
末尾添加):export JAVA_HOME=$(dirname $(dirname $(readlink -f $(which java))))export PATH=$PATH:$JAVA_HOME/binsource /etc/profile
使配置生效。四、安装Hadoop(仅在master节点)
/opt/hadoop
目录下:# 下载Hadoop(以3.3.6为例)cd /tmpwget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.6/hadoop-3.3.6.tar.gz# 解压并移动到/opt目录sudo tar -xzf hadoop-3.3.6.tar.gz -C /opt/sudo mv /opt/hadoop-3.3.6 /opt/hadoop# 设置权限sudo chown -R $(whoami):$(whoami) /opt/hadoop配置Hadoop环境变量
~/.bashrc
文件,添加以下内容:export HADOOP_HOME=/opt/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinexport HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopsource ~/.bashrc
生效。关键配置文件修改
$HADOOP_HOME/etc/hadoop
目录,依次修改以下文件:
1. core-site.xml
2. hdfs-site.xml 3. yarn-site.xml 4. mapred-site.xml 5. workers 文件(原slaves) 使用scp命令将整个Hadoop目录复制到slave1和slave2: 在slave1和slave2上执行 首次启动前需格式化NameNode(仅在master执行): 启动HDFS和YARN: 验证服务是否正常运行: 访问Web UI验证: 至此,你已成功在RockyLinux上完成了一个基本的Hadoop大数据集群部署。通过本教程,你掌握了RockyLinux大数据集群部署的核心步骤,包括系统配置、Java环境搭建、Hadoop安装与分布式配置。后续可根据业务需求扩展节点、集成Hive、Spark等组件,打造完整的大数据生态。 记住,稳定的大数据平台离不开良好的运维习惯。建议定期备份NameNode元数据、监控集群健康状态,并根据负载调整资源配置。 希望这篇RockyLinux Hadoop安装与大数据平台搭建教程能帮助你顺利入门大数据领域!如需进一步了解RockyLinux集群配置技巧,欢迎查阅官方文档或社区资源。<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property></configuration><configuration> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///opt/hadoop/data/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///opt/hadoop/data/datanode</value> </property></configuration><configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property></configuration><configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration>slave1slave2五、分发Hadoop到其他节点
# 在master上执行scp -r /opt/hadoop slave1:/opt/scp -r /opt/hadoop slave2:/opt/# 同时复制.bashrc(包含环境变量)scp ~/.bashrc slave1:~/scp ~/.bashrc slave2:~/source ~/.bashrc
并创建Hadoop数据目录:mkdir -p /opt/hadoop/data/datanode六、格式化HDFS并启动集群
hdfs namenode -formatstart-dfs.shstart-yarn.shjps # 应看到NameNode、SecondaryNameNode、ResourceManager等进程七、总结
