Как я могу добавить новые узлы в живой кластер hbase / hadoop?

Я запускаю несколько пакетных заданий с постоянно меняющимися входными данными, и у меня возникают проблемы с выделением емкости. Я использую Whirl для начальной настройки, но как только я запускаю, например, 5 машин, я не знаю, как добавлять к ним новые машины во время его работы. Я не знаю заранее, насколько сложными или большими будут данные, поэтому мне было интересно, есть ли способ добавить новые машины в кластер и заставить его действовать сразу (или с некоторой задержкой, но не хочу необходимо отключить кластер и поднять его с новыми узлами).

hadoop hdfs hbase

Lostsoul 23.04.2012 источник

Ответы (2)

arrow_upward
10
arrow_downward

Существует точное объяснение того, как добавить узел:

David Gruzman 23.04.2012

comment

Не запущенные задачи могут быть запланированы на новых узлах, но это не разбивает существующие задачи. Кроме того, поскольку ни на одном из новых узлов не будет данных, хранящихся локально, накладные расходы на отправку данных на эти узлы для обработки могут быть больше, чем затраты на их обработку там, где они уже находятся. - Chris Shain; 23.04.2012

arrow_upward
3
arrow_downward

Проверьте файлы, указанные ниже по параметрам:

dfs.hosts => dfs.include
dfs.hosts.exclude
mapreduce.jobtracker.hosts.filename => mapred.include
mapreduce.jobtracker.hosts.exclude.filename

Вы можете добавить список хостов в файлы dfs.include и mapred.include, а затем запустить

hadoop mradmin -refreshNodes;

hadoop dfsadmin -refreshNodes;

Это все.

Кстати, в 0.21 была добавлена возможность 'mradmin -refreshNodes'

Нихил

Nikhil Mulley 26.04.2012

Как я могу добавить новые узлы в живой кластер hbase / hadoop?

Ответы (2)

Вопросы по теме