用户工具

站点工具


fqa:mstation:q201

q201 slurm 提交报错 sinfo 显示 drain 状态

解决方法

使用 root 用户执行下面的命令
scontrol update node=mstation state=idle

root cause 原因

scontrol show node mstation
 
# 在输出中找 Reason
 
Reason=Not responding [slurm@2024-03-21T14:07:17]
节点处于 drain, down 等状态, 我们先通过上面的命令找原因

1. Reason=Not responding 一般要重启服务, 再更新状态为 idle

systemctl restart slurmd
scontrol update node=mstation state=idle

mstation 提交指定显卡

# 在提交脚本中加上如下环境变量
export CUDA_VISIBLE_DEVICES=0,1,2,3
nvidia-smi 查看 gpu卡. 指定使用 0,2,3 这3块卡
export CUDA_VISIBLE_DEVICES=0,2,3

评论

请输入您的评论. 可以使用维基语法:
76 -3 = 
 
fqa/mstation/q201.txt · 最后更改: 2024/03/22 09:51 由 pengge