У меня есть ситуация, когда целые блоки файла лежат на одном компьютере, а коэффициент репликации по умолчанию равен 1.
В этом сценарии, если я запускаю hadoop в своем кластере, я чувствую, что все мои задачи сопоставления будут выполняться только на одном компьютере, поскольку блоки присутствуют только на этом компьютере. Это правильно? Является ли выполнение задачи локального сопоставителя ограничением или просто приоритетом?
Если да, можно ли настроить таким образом, чтобы задачи сопоставления также выполнялись на других машинах путем копирования блоков на их локальные диски.?
Второй вопрос: даже если задачи сопоставления выполняются только на одной машине, правильно ли, что редукторы будут запускаться на всех других машинах путем копирования промежуточных данных сопоставителя?