在当今大数据时代,Hadoop 作为开源分布式计算框架,被广泛应用于海量数据的存储与处理。对于初学者来说,在 Ubuntu 系统上安装和配置 Hadoop 是入门大数据技术的重要一步。本教程将详细讲解如何在 Ubuntu 上完成 Ubuntu Hadoop安装 与基础配置,即使是小白也能轻松上手!

一、准备工作
在开始安装前,请确保你的系统满足以下条件:
操作系统:Ubuntu 20.04 LTS 或更高版本 已安装 Java(Hadoop 依赖 Java 运行环境) 具备 sudo 权限的用户账户1. 安装 Java
打开终端,执行以下命令安装 OpenJDK:
sudo apt updatesudo apt install openjdk-8-jdk -y
验证 Java 是否安装成功:
java -version
你应该看到类似如下输出:
openjdk version "1.8.0_362"OpenJDK Runtime Environment (build 1.8.0_362-8u362-ga-0ubuntu1~20.04-b09)OpenJDK 64-Bit Server VM (build 25.362-b09, mixed mode)
二、下载并安装 Hadoop
1. 创建 Hadoop 用户(可选但推荐)
为安全起见,建议创建专用用户运行 Hadoop:
sudo adduser hadoopusersudo usermod -aG sudo hadoopusersu - hadoopuser
2. 下载 Hadoop
访问 Apache Hadoop 官网 获取最新稳定版链接。以 Hadoop 3.3.6 为例:
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gztar -xzvf hadoop-3.3.6.tar.gzsudo mv hadoop-3.3.6 /usr/local/hadoop
三、配置 Hadoop 环境变量
编辑用户的 .bashrc 文件:
nano ~/.bashrc
在文件末尾添加以下内容(请根据你的 Java 和 Hadoop 实际路径调整):
# Hadoop Environment Variablesexport JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64export HADOOP_HOME=/usr/local/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinexport HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
保存后,执行以下命令使配置生效:
source ~/.bashrc
四、配置 Hadoop 单机模式(伪分布式)
Hadoop 支持三种运行模式:本地模式、伪分布式模式和完全分布式模式。本教程以 Hadoop单机模式配置 为主,适合学习和开发测试。
1. 修改 core-site.xml
nano $HADOOP_HOME/etc/hadoop/core-site.xml
在 <configuration> 标签内添加:
<property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value></property>
2. 修改 hdfs-site.xml
nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
添加以下内容(replication 设为 1,因为是单机):
<property> <name>dfs.replication</name> <value>1</value></property><property> <name>dfs.namenode.name.dir</name> <value>file:///usr/local/hadoop/data/namenode</value></property><property> <name>dfs.datanode.data.dir</name> <value>file:///usr/local/hadoop/data/datanode</value></property>
3. 创建 HDFS 数据目录
mkdir -p /usr/local/hadoop/data/namenodemkdir -p /usr/local/hadoop/data/datanode
4. 配置 yarn-site.xml(可选)
如果你打算使用 YARN 资源管理器,编辑 yarn-site.xml:
<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value></property>
五、格式化 HDFS 并启动 Hadoop
首次启动前需格式化 NameNode:
hdfs namenode -format
启动 HDFS 和 YARN:
start-dfs.shstart-yarn.sh
验证是否成功:
jps
你应该看到如下进程(可能略有不同):
NameNodeDataNodeSecondaryNameNodeResourceManagerNodeManager
你也可以通过浏览器访问 Web UI:
HDFS 管理界面:http://localhost:9870 YARN 资源管理界面:http://localhost:8088六、总结
恭喜你!你已经成功完成了 Ubuntu Hadoop安装 与基础配置。通过本教程,你掌握了 Hadoop配置教程 的核心步骤,包括 Java 环境搭建、Hadoop 安装、环境变量设置以及伪分布式模式的配置。这为你后续学习 MapReduce、Hive、Spark 等大数据组件打下了坚实基础。
记住,Ubuntu大数据平台搭建 是一个循序渐进的过程。建议先在单机模式下熟悉 Hadoop 命令和工作机制,再尝试搭建多节点集群。希望这篇 Hadoop单机模式配置 指南能助你在大数据之路上迈出成功的第一步!
