进入登录节点 #
进入方式在第3章里讲过了。在执行sbatch startup.sh
提交作业任务并开始运行后,通过在登录节点执行squeue
得知任务的节点信息(如分配到了vol08),就直接ssh vol08
可以进入。
可以通过nvidia-smi
看到当前任务的显存使用情况,也可以看到哪几张卡还没人用。以及其他人占了哪几块卡。
不要进入节点后看到有空卡就在计算节点里不通过提交任务的方式直接运行!! 这样相当于偷卡,结果就是你私下已经占用上了,但是别人提交任务后平台还是识别为卡为空的,会给别人分配该卡,其他人进来一运行任务他的任务就会out of memory,反应到网络中心那边就会被查到。那沈老师就要被请去喝茶了。
临时调试时的操作 #
如第3章中申请调试资源,进入计算节点后,就可以通过module load
方式加载cuda等。然后conda activate
激活自己的环境进行调试。