В нескольких презентациях (например, 1, 2, 3) при управлении кластером, одна из целей планировщика - уменьшить количество скоординированных сбоев путем распределения задач одного задания по вычислительным узлам, которые с меньшей вероятностью откажутся вместе.
Почему нежелательны коррелированные сбои задач в рамках одной работы? Если я правильно понял, все задачи нужно завершить до того, как работа будет завершена. Поэтому на первый взгляд лучше, если сбои задач ограничиваются небольшим количеством заданий, чтобы только эти задания испытывали задержку из-за повторной отправки невыполненных задач.
Я бы понял, если бы все задачи в работе просто воспроизводили одну и ту же работу, но с сотнями задач на задание, что не могло быть так (возможно, есть 3-4 одинаковых задачи для целей отказоустойчивости, и я понимаю, почему важно уменьшить количество коррелированных сбоев для этих групп задач).