Я столкнулся с интересной ситуацией, и теперь ищу, как это сделать намеренно. На моей локальной установке с одним узлом я одновременно запускал 2 задания с экрана терминала. Мои оба задания используют один и тот же редуктор, у них есть разница только в функции карты (ключ агрегации - группа), вывод обоих заданий был записан в вывод первого задания (хотя второе задание создало свою собственную папку, но она была пустой ). Я работаю над созданием сводных агрегаций на разных уровнях, и это поведение меня восхищает, так как выходные данные агрегации с двух разных уровней доступны мне в одном файле (также отлично отсортированном).
Мой вопрос заключается в том, как добиться того же в реальном кластере Hadoop, где у нас есть несколько узлов данных, т.е. я программно инициирую несколько заданий, все обращаются к одному и тому же входному файлу, по-разному сопоставляют данные, но используют один и тот же редуктор, а вывод доступен в одном один файл, а не в 5 разных выходных файлах.
Пожалуйста, порекомендуйте.
Я просматривал слияние выходных файлов после фазы сокращения, прежде чем решил задайте мой вопрос.
Спасибо и добрые пожелания,
Мойз Ахмед.