Я запускаю несколько пакетных заданий с постоянно меняющимися входными данными, и у меня возникают проблемы с выделением емкости. Я использую Whirl для начальной настройки, но как только я запускаю, например, 5 машин, я не знаю, как добавлять к ним новые машины во время его работы. Я не знаю заранее, насколько сложными или большими будут данные, поэтому мне было интересно, есть ли способ добавить новые машины в кластер и заставить его действовать сразу (или с некоторой задержкой, но не хочу необходимо отключить кластер и поднять его с новыми узлами).
Как я могу добавить новые узлы в живой кластер hbase / hadoop?
Ответы (2)
person
David Gruzman
schedule
23.04.2012
Не запущенные задачи могут быть запланированы на новых узлах, но это не разбивает существующие задачи. Кроме того, поскольку ни на одном из новых узлов не будет данных, хранящихся локально, накладные расходы на отправку данных на эти узлы для обработки могут быть больше, чем затраты на их обработку там, где они уже находятся.
- person Chris Shain; 23.04.2012
Проверьте файлы, указанные ниже по параметрам:
- dfs.hosts => dfs.include
- dfs.hosts.exclude
- mapreduce.jobtracker.hosts.filename => mapred.include
- mapreduce.jobtracker.hosts.exclude.filename
Вы можете добавить список хостов в файлы dfs.include и mapred.include, а затем запустить
hadoop mradmin -refreshNodes;
hadoop dfsadmin -refreshNodes;
Это все.
Кстати, в 0.21 была добавлена возможность 'mradmin -refreshNodes'
Нихил
person
Nikhil Mulley
schedule
26.04.2012