Источник тегов свиньи не работает с несколькими файлами

У меня есть сценарий Pig, который загружает несколько входных файлов. Когда я хочу получить имя входного файла с каждой входной записью из файла tagsource или tagfile, он выбирает только первое имя файла, но включает данные из обоих файлов.

Пример:

I_STREAM = LOAD '/tmp/' USING PigStorage(';','-tagFile') AS (filename, f1, f2, f3);
DUMP I_STREAM; 

Содержание файлов:

/tmp$ cat ./file1.txt
1;1;1 

/tmp$ cat ./file2.txt
2;2;2

Текущий выход:

(file1.txt, 1,1,1)
(file1.txt, 2,2,2)

Ожидаемый результат:

(file1.txt, 1,1,1)
(file2.txt, 2,2,2)

person abhish_gl    schedule 19.06.2013    source источник


Ответы (1)


Может быть, потому, что ваши файлы маленькие, и они объединяются? В документации указано, что для pig.splitCombination необходимо установить значение false. http://pig.apache.org/docs/r0.10.0/api/org/apache/pig/builtin/PigStorage.html

person thierrybm    schedule 07.08.2013