У меня есть кластер Hadoop MR2 из 30 узлов, которым управляет YARN. В настоящее время существует 10 заданий Oozie, каждое из которых запускает одну программу Map. Я заметил, что фактически используются только 11 из 30 узлов; только на 11 узлах есть контейнеры, на которых запущены программы Map.
Я ожидаю, что на каждом узле будет запущен хотя бы один контейнер. Почему это не так? Это связано с разделением входных данных и тем, что, исходя из моих настроек размера блока HDFS, входные данные лучше всего разделить только на 11 узлов? Если это так, будет ли более оптимальным настроить размер блока, чтобы использовать все узлы?