Как работает Hadoop dfs.replicate?

У меня есть установка Hadoop с 2 узлами (1 — ведущий/ведомый, а другой — ведомый) и 4 входных файла размером 1 ГБ каждый. Когда я устанавливаю для dfs.replicate значение 2, все данные копируются на оба узла, что понятно. Но мой вопрос заключается в том, как я могу увидеть улучшенную производительность (почти вдвое лучше) по сравнению с настройкой с одним узлом, поскольку в случае с двумя узлами map-reduce по-прежнему будет работать с полным набором данных в обеих системах вместе с добавленным накладные расходы на перенаправление входных данных от двух преобразователей к редукторам.

Кроме того, когда я устанавливаю репликацию как 1, все данные существуют только на главном узле, что также понятно, чтобы избежать накладных расходов на Ethernet. Но даже в этом случае я вижу улучшение производительности по сравнению с настройкой с одним узлом, что меня сбивает с толку, поскольку map-reduce работает с локальными наборами данных, этот сценарий должен быть по существу похож на настройку с одним узлом с одной программой уменьшения карты, работающей на главном node на весь набор данных ??

Может кто-нибудь помочь мне понять, что мне здесь не хватает???

Спасибо, Паван.


person user1566063    schedule 17.04.2013    source источник


Ответы (1)


Паван,

В случае с двумя узлами задание уменьшения карты не будет выполняться для всего набора данных. MapReduce работает с блоками HDFS размером 64 МБ или более в зависимости от вашей конфигурации. Ваш 1 ГБ разбивается на блоки и распределяется по узлам кластера. некоторые из этих блоков обрабатываются на узле 1, а другие — на узле 2, но без дублирования. Фактор репликации только увеличивает доступность данных и большую устойчивость к сбоям узлов. Это не будет дублировать задачи.

в результате происходит то, что с точки зрения обработки данные разделяются между узлом 1 и узлом 2 и обрабатываются. Это означает, что если вы полностью и правильно используете свою вычислительную мощность, теоретически вы удваиваете свою скорость.

ура тряпки

person Rags    schedule 17.04.2013
comment
Рада, что информация полезна для Вас! - person Rags; 17.04.2013