ubuntu服务器安装配置slurm (Ubuntu 22.04 LTS) 1. slurm简介 Slurm 全称 Simple Linux Utility for Resource Manageme
Slurm 全称 Simple Linux Utility for Resource Management。通常被用于大型linux服务器 (超算) 上,作为任务管理系统。本文详细讲述如何在 Ubuntu 22.04 LTS 上安装slurm,并进行简单的配置。
其实网上相关的教程已经非常多,但在旧版本的Ubuntu上安装slurm时,通常需要安装一个名为slurm-llnl的软件包。但Ubuntu 22.04 LTS 的软件源不包含slurm-llnl,强行安装就会报出如下的错误:
$ sudo apt install slurm-llnlReading package lists... DoneBuilding dependency tree... DoneReading state infORMation... DoneE: Unable to locate package slurm-llnl
$ sudo apt update$ sudo apt install slurm-wlm# `slurmd`: compute node daemon$ sudo apt install slrumd (提示已安装)# `slurmctld`: central management daemon$ sudo apt install slurmctld (提示已安装)
# 输入以下命令,并$ dpkg -L slurmctld | grep slurm-wlm-configurator.html/usr/share/doc/slurmctld/slurm-wlm-configurator.html$ cd /usr/share/doc/slurmctld$ sudo chmod +r slurm-wlm-configurator.html
$ python3 -m Http.serverServing HTTP on 0.0.0.0 port 8000 (http://0.0.0.0:8000/) ...
打开浏览器,输入 http://:8000/,进入配置页面,点击进入 slurm-wlm-configurator.html 按照自己的需求填写设置。
Cluster Name:随意起名
Control Machines:控制节点的计算机名
Compute Machines:计算机名、ip地址、分区名和任务时间限制
cpus:虚拟机直接指定虚拟cpu数量
Sockets: 物理机不指定cpus,指定cpu插槽
CoresPerSocket: 物理机每个插槽有多少core
ThreadsPerCore: 物理机每个core有多少个线程,超线程的CPU此数字为2
slurmuser:指定为root用户
Process Tracking:选择 LinuxProc: Use parent process ID records, processes can escape from Slurm control
web 生成slurm.conf
填写完毕后,点击submit,将生成的内容拷贝进 /etc/slurm/slurm.conf (slurm 的配置文件)
# 创建$ sudo touch /etc/slurm/slurm.conf# 将网页生成的内容 copy 进来$ sudo vim /etc/slurm/slurm.conf# ctrl + v
$ sudo mkdir /var/spool/slurmd$ sudo mkdir /var/spool/slurmctld
# 启动 slurmd, 日志文件路径为 `/var/log/slurmd.log`$ sudo systemctl start slurmd# 启动 slurmctld, 日志文件路径为 `/var/log/slurmctld.log`$ sudo systemctl start slurmctld
启动后无法正常使用 slurm 的话,先查看slurmd和slurmctld的状态,打开日志查看报错。
# 查看 slurmd 的状态$ sudo systemctl status slurmd# 查看 slurmctld 的状态$ sudo systemctl status slurmctld
集群名,随便取
管理节点的主机名
# 获取主机名$ hostname -smu01
最好 SlurmUser=root
,权限最高,填写日志文件不会由于权限问题报错
此处以单节点集群举例(单个节点既作为管理节点,又作为计算节点)
EnforcePartLimits=ALLNodeName=mu01 CPUs=36 State=UNKNOWN # 本行可以通过 `slurmd -C` 获取PartitionName=compute Nodes=mu01 Default=YES MaxTime=INFINITE State=UP # 创建一个名为compute的队列
slurmd -C
的输出:
$ slurmd -CNodeName=mu01 CPUs=36 Boards=1 SocketsPerBoard=1 CoresPerSocket=10 ThreadsPerCore=2 RealMemory=63962
脚本内容111.sh
#!/bin/bash
#SBATCH -p debug
#SBATCH -J test
#SBATCH -N 1
#SBATCH -n 4
#SBATCH -o out.log
#SBATCH -e error.log
mpirun -np 4 vasp_std
作业提交命令:(在slurm安装配置完成,提交作业之前需要重启一次服务器)
sbatch -n 4 111.sh
sbatch 111.sh
作业队列:squeue
作业状态:sinfo
作业输出:tail -f out.log
来源地址:https://blog.csdn.net/snow5255/article/details/131148524
--结束END--
本文标题: Ubuntu服务器安装配置slurm (Ubuntu 22.04 LTS)
本文链接: https://lsjlt.com/news/416831.html(转载时请注明来源链接)
有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
2024-10-22
2024-10-22
2024-10-22
2024-10-22
2024-10-22
2024-10-22
2024-10-22
2024-10-22
2024-10-22
2024-10-22
回答
回答
回答
回答
回答
回答
回答
回答
回答
回答
0