Ubuntu集群资源管理方法（从零开始搭建高效Linux计算集群）

来源：这里教程网时间：2026-03-28 08:20:46 作者：

在当今高性能计算（HPC）和人工智能训练场景中，Ubuntu集群因其开源、稳定和强大的社区支持而被广泛采用。然而，如何高效地管理集群中的CPU、内存、GPU等资源，是每个系统管理员和开发者必须面对的问题。本教程将手把手教你掌握资源管理的核心方法，即使你是完全的小白，也能轻松上手！

什么是集群资源管理？

集群资源管理是指对多台服务器（节点）组成的计算集群进行统一调度、分配和监控，确保任务能高效、公平地使用硬件资源。常见的管理目标包括：

避免资源争抢提高整体利用率保障关键任务优先执行实时监控资源使用情况

主流工具：Slurm调度器

在Linux世界，尤其是Ubuntu集群环境中，Slurm调度器（Simple Linux Utility for Resource Management）是最流行的开源作业调度系统。它轻量、高效，被全球众多超算中心采用。

安装Slurm（Ubuntu 22.04示例）

假设你已有至少两台Ubuntu机器（一台作为控制节点，其余为计算节点），以下是简要安装步骤：

# 在所有节点上更新系统sudo apt update && sudo apt upgrade -y# 安装Slurm及相关依赖（控制节点和计算节点都要装）sudo apt install slurm-wlm slurm-wlm-basic-plugins -y# 安装Munge用于身份认证（所有节点）sudo apt install munge -ysudo create-munge-keysudo systemctl start mungesudo systemctl enable munge

配置Slurm

编辑控制节点上的

/etc/slurm/slurm.conf

文件：

ControlMachine=control-nodeNodeName=compute[1-4] CPUs=8 RealMemory=32768 State=UNKNOWNPartitionName=main Nodes=compute[1-4] Default=YES MaxTime=INFINITE State=UP

其中：

ControlMachine

是你的主控节点主机名

NodeName

定义计算节点（这里假设有4台，每台8核32GB内存）

PartitionName

定义一个名为

main

的分区

提交与监控作业

用户通过

sbatch

提交作业脚本，通过

squeue

查看队列状态：

# 示例作业脚本：job.sh#!/bin/bash#SBATCH --job-name=test_job#SBATCH --output=result.txt#SBATCH --ntasks=1#SBATCH --cpus-per-task=4#SBATCH --mem=8Gsleep 60echo "Job completed on $(hostname)"

提交并查看：

sbatch job.shsqueue -u $USER