~~NOTOC~~ ===== q201 slurm 提交报错 sinfo 显示 drain 状态 ===== ==== 解决方法 ==== > 使用 root 用户执行下面的命令 scontrol update node=mstation state=idle ==== root cause 原因 ==== scontrol show node mstation # 在输出中找 Reason Reason=Not responding [slurm@2024-03-21T14:07:17] > 节点处于 drain, down 等状态, 我们先通过上面的命令找原因 1. ''Reason=Not responding'' 一般要重启服务, 再更新状态为 idle systemctl restart slurmd scontrol update node=mstation state=idle ==== mstation 提交指定显卡 ==== # 在提交脚本中加上如下环境变量 export CUDA_VISIBLE_DEVICES=0,1,2,3 > nvidia-smi 查看 gpu卡. 指定使用 0,2,3 这3块卡 export CUDA_VISIBLE_DEVICES=0,2,3