~~NOTOC~~
===== q201 slurm 提交报错 sinfo 显示 drain 状态 =====
==== 解决方法 ====
> 使用 root 用户执行下面的命令
scontrol update node=mstation state=idle
==== root cause 原因 ====
scontrol show node mstation
# 在输出中找 Reason
Reason=Not responding [slurm@2024-03-21T14:07:17]
> 节点处于 drain, down 等状态, 我们先通过上面的命令找原因
1. ''Reason=Not responding'' 一般要重启服务, 再更新状态为 idle
systemctl restart slurmd
scontrol update node=mstation state=idle
==== mstation 提交指定显卡 ====
# 在提交脚本中加上如下环境变量
export CUDA_VISIBLE_DEVICES=0,1,2,3
> nvidia-smi 查看 gpu卡. 指定使用 0,2,3 这3块卡
export CUDA_VISIBLE_DEVICES=0,2,3