用户工具

站点工具


fqa:mstation:q201

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
fqa:mstation:q201 [2024/02/28 16:37] penggefqa:mstation:q201 [2024/03/22 09:51] (当前版本) pengge
行 1: 行 1:
 ~~NOTOC~~ ~~NOTOC~~
-===== q201 slurm 提交报错 =====+===== q201 slurm 提交报错 sinfo 显示 drain 状态 =====
  
 +<WRAP em>
 ==== 解决方法 ==== ==== 解决方法 ====
 +</WRAP>
 +
 +> 使用 root 用户执行下面的命令
  
 <code bash> <code bash>
 scontrol update node=mstation state=idle scontrol update node=mstation state=idle
 </code> </code>
 +
 +<WRAP em>
 +==== root cause 原因 ====
 +</WRAP>
 +
 +<code bash>
 +scontrol show node mstation
 +
 +# 在输出中找 Reason
 +
 +Reason=Not responding [slurm@2024-03-21T14:07:17]
 +</code>
 +
 +> 节点处于 drain, down 等状态, 我们先通过上面的命令找原因
 +
 +1. ''Reason=Not responding'' 一般要重启服务, 再更新状态为 idle
 +
 +<code bash>
 +systemctl restart slurmd
 +scontrol update node=mstation state=idle
 +</code>
 +
 +
 +<WRAP lo>
 +==== mstation 提交指定显卡 ====
 +</WRAP>
 +
 +<code bash>
 +# 在提交脚本中加上如下环境变量
 +export CUDA_VISIBLE_DEVICES=0,1,2,3
 +</code>
 +
 +> <wrap hi>nvidia-smi 查看 gpu卡. 指定使用 0,2,3 这3块卡</wrap>
 +
 +<code bash>
 +export CUDA_VISIBLE_DEVICES=0,2,3
 +</code>
 +
fqa/mstation/q201.1709109478.txt.gz · 最后更改: 2024/02/28 16:37 由 pengge