fqa:mstation:q201
q201 slurm 提交报错 sinfo 显示 drain 状态
解决方法
使用 root 用户执行下面的命令
scontrol update node=mstation state=idle
root cause 原因
scontrol show node mstation # 在输出中找 Reason Reason=Not responding [slurm@2024-03-21T14:07:17]
节点处于 drain, down 等状态, 我们先通过上面的命令找原因
1. Reason=Not responding
一般要重启服务, 再更新状态为 idle
systemctl restart slurmd scontrol update node=mstation state=idle
mstation 提交指定显卡
# 在提交脚本中加上如下环境变量 export CUDA_VISIBLE_DEVICES=0,1,2,3
nvidia-smi 查看 gpu卡. 指定使用 0,2,3 这3块卡
export CUDA_VISIBLE_DEVICES=0,2,3
fqa/mstation/q201.txt · 最后更改: 2024/03/22 09:51 由 pengge
评论