У меня есть сценарий Pig, который загружает несколько входных файлов. Когда я хочу получить имя входного файла с каждой входной записью из файла tagsource
или tagfile
, он выбирает только первое имя файла, но включает данные из обоих файлов.
Пример:
I_STREAM = LOAD '/tmp/' USING PigStorage(';','-tagFile') AS (filename, f1, f2, f3);
DUMP I_STREAM;
Содержание файлов:
/tmp$ cat ./file1.txt
1;1;1
/tmp$ cat ./file2.txt
2;2;2
Текущий выход:
(file1.txt, 1,1,1)
(file1.txt, 2,2,2)
Ожидаемый результат:
(file1.txt, 1,1,1)
(file2.txt, 2,2,2)