Чтение сжатого JSON в Spark

У меня есть данные, хранящиеся в S3 как файлы json в кодировке utf-8 и сжатые с использованием snappy / lz4. Я хотел бы использовать Spark для чтения / обработки этих данных, но Spark, похоже, требует суффикс имени файла (.lz4, .snappy), чтобы понять схему сжатия.

Проблема в том, что я не могу контролировать, как файлы будут называться - они не будут записаны с этим суффиксом. Также слишком дорого переименовывать все такие файлы, чтобы включить в них суффикс.

Есть ли способ для Spark правильно прочитать эти файлы JSON? Для файлов с паркетной кодировкой есть 'parquet.compression' = 'snappy' в Hive Metastore, который, кажется, решает эту проблему для паркетных файлов. Есть что-то подобное для текстовых файлов?

user12121909 21.10.2019 источник

comment

stackoverflow.com/questions/45082832/ - vaquar khan 21.10.2019

comment

Файлы Parquet разрешимы, но я имею в виду именно файлы json в текстовом формате. - user12121909 21.10.2019

comment

К сожалению, вы можете установить кодек сжатия только на писателях DataFrame. - Hristo Iliev 22.10.2019

Чтение сжатого JSON в Spark

Вопросы по теме