Привет дружелюбные люди,
мой вопрос довольно конкретный.
Более недели я пытаюсь отправить тысячи однопоточных заданий для научного эксперимента с использованием sbatch и srun.
Проблема в том, что для выполнения этих заданий может потребоваться разное количество времени, а некоторые из них могут даже быть прерваны из-за превышения лимита памяти. Оба поведения нормальны, и моя оценка с этим справляется.
Но я столкнулся с проблемой, что некоторые задания никогда не запускаются, даже если они были отправлены.
Мой сценарий sbatch выглядит так:
#!/usr/bin/bash
#SBATCH --nodes=4
#SBATCH --tasks-per-node=12
#SBATCH --mem-per-cpu=10000
for i in {1..500}
do
srun -N1 -n1 -c1 --exclusive --time=60 ${mybinary} $i &
wait 5s
done
Теперь в моем журнале ошибок отображается следующее сообщение:
srun: Job 1846955 step creation temporarily disabled, retrying
1) Что означает «создание шага временно отключено»? Все ЦП заняты, а задание пропущено или оно запускается снова позже, когда ресурсы освободятся?
2) Почему некоторые из моих работ не выполняются и как это исправить? Я использую правильные параметры для srun?
Спасибо за вашу помощь!