fqa:mstation:q201
差别
这里会显示出您选择的修订版和当前版本之间的差别。
| 两侧同时换到之前的修订记录前一修订版 | |||
| fqa:mstation:q201 [2024/03/13 09:27] – pengge | fqa:mstation:q201 [2024/03/22 09:51] (当前版本) – pengge | ||
|---|---|---|---|
| 行 11: | 行 11: | ||
| scontrol update node=mstation state=idle | scontrol update node=mstation state=idle | ||
| </ | </ | ||
| + | |||
| + | <WRAP em> | ||
| + | ==== root cause 原因 ==== | ||
| + | </ | ||
| + | |||
| + | <code bash> | ||
| + | scontrol show node mstation | ||
| + | |||
| + | # 在输出中找 Reason | ||
| + | |||
| + | Reason=Not responding [slurm@2024-03-21T14: | ||
| + | </ | ||
| + | |||
| + | > 节点处于 drain, down 等状态, 我们先通过上面的命令找原因 | ||
| + | |||
| + | 1. '' | ||
| + | |||
| + | <code bash> | ||
| + | systemctl restart slurmd | ||
| + | scontrol update node=mstation state=idle | ||
| + | </ | ||
| + | |||
| <WRAP lo> | <WRAP lo> | ||
fqa/mstation/q201.1710293243.txt.gz · 最后更改: 2024/03/13 09:27 由 pengge
