Чтение быстрого сжатого ввода в свинье

У меня есть файл, который я пытаюсь загрузить в свинью, сжатый с помощью snappy. Я установил параметры конфигурации в grunt, как описано в этой проблеме jira, но я все еще получая сжатые данные в результатах.

Когда я запускаю задание, оно говорит: org.apache.hadoop.io.compress.snappy.LoadSnappy — доступна собственная библиотека Snappy.

для задания я делаю простой
a = load '/path/to/snappy/file', используя PigStorage() as (x, y, z)

затем:
дамп данных

выведет сжатые данные.

Кто-нибудь знает, что я могу сделать, чтобы правильно прочитать данные? Заранее спасибо.


person rgimmy    schedule 23.01.2013    source источник


Ответы (1)


PigStorage использует PigTextInputFormat для ввода, который будет обнаруживать и использовать сжатые файлы Snappy, но файлы должны иметь правильное расширение для фабрики кодеков сжатия Hadoop, чтобы знать об использовании snappy.

Я предполагаю, что ваши файлы не имеют расширения .snappy, попробуйте переименовать файлы и повторите попытку.

person Chris White    schedule 24.01.2013