跳至内容
龙讯旷腾 pwmat Wiki
用户工具
注册
登录
站点工具
搜索
工具
显示页面
过去修订
全部折叠/展开
反向链接
最近更改
媒体管理器
网站地图
注册
登录
>
最近更改
媒体管理器
网站地图
您的足迹:
fqa:mstation:q201
本页面只读。您可以查看源文件,但不能更改它。如果您觉得这是系统错误,请联系管理员。
~~NOTOC~~ ===== q201 slurm 提交报错 sinfo 显示 drain 状态 ===== <WRAP em> ==== 解决方法 ==== </WRAP> > 使用 root 用户执行下面的命令 <code bash> scontrol update node=mstation state=idle </code> <WRAP em> ==== root cause 原因 ==== </WRAP> <code bash> scontrol show node mstation # 在输出中找 Reason Reason=Not responding [slurm@2024-03-21T14:07:17] </code> > 节点处于 drain, down 等状态, 我们先通过上面的命令找原因 1. ''Reason=Not responding'' 一般要重启服务, 再更新状态为 idle <code bash> systemctl restart slurmd scontrol update node=mstation state=idle </code> <WRAP lo> ==== mstation 提交指定显卡 ==== </WRAP> <code bash> # 在提交脚本中加上如下环境变量 export CUDA_VISIBLE_DEVICES=0,1,2,3 </code> > <wrap hi>nvidia-smi 查看 gpu卡. 指定使用 0,2,3 这3块卡</wrap> <code bash> export CUDA_VISIBLE_DEVICES=0,2,3 </code>
fqa/mstation/q201.txt
· 最后更改: 2024/03/22 09:51 由
pengge
页面工具
显示页面
过去修订
反向链接
全部折叠/展开
回到顶部