Доступ к файлу в Pig через распределенный кэш

Я просмотрел много страниц в Stackoverflow по этому поводу. Но все же я в замешательстве. Даже если это повторяющийся вопрос или похожий, пожалуйста, ответьте

Я хочу сравнить один файл с другим в Pig, и я хочу, чтобы один из файлов находился в распределенном кеше, чтобы каждый картограф имел его локально. Как это реализовать в Pig.


person Pooja3101    schedule 20.02.2014    source источник
comment
Не могли бы вы уточнить, что вы имеете в виду под сравнением?   -  person reo katoa    schedule 20.02.2014
comment
Используйте LOAD UDF (хотя вам, вероятно, придется его написать)   -  person Chris Gerken    schedule 20.02.2014
comment
возможный дубликат Доступ к файлу в Mapper через распределенный кэш   -  person vefthym    schedule 20.02.2014
comment
Допустим, у меня есть файл A. У меня есть новый файл B, который имеет ту же структуру, что и A, и содержит некоторые обновленные записи A на основе 1-го столбца. Итак, я подумал, что положу старый файл в кеш, чтобы каждый картограф имел его локально, и сравнил его с новым (который разделен между картографами), чтобы я мог отфильтровать обновленные записи. Но я понятия не имею, как это сделать, свинья. Пожалуйста помоги   -  person Pooja3101    schedule 20.02.2014
comment
Скажем так, я хочу добавить файл в распределенный кэш в Pig и прочитать его. Как я могу это сделать?   -  person Pooja3101    schedule 20.02.2014


Ответы (1)


используйте следующее

set mapred.cache.files /new_file_location/new_file.txt#new_file.txt

отправить в место, где работает каждый маппер.

person jeff    schedule 28.04.2014