Мы создаем ETL с помощью AWS Glue. А для оптимизации производительности запросов мы храним данные в apache parquet. Один раз данные сохраняются на S3 в паркетном формате. Мы используем AWS Spectrum для запроса этих данных.
Мы успешно протестировали весь стек в нашей учетной записи AWS для разработки. Но когда мы перешли на нашу производственную учетную запись AWS. Мы застряли со странной проблемой. Когда мы запрашиваем, строки возвращаются, но данные пусты.
Хотя запрос подсчета возвращает хорошее число
В ходе дальнейшего расследования мы узнали, что файлы apache parquet в учетной записи AWS для разработки имеют кодировку RLE, а файлы в рабочей учетной записи AWS — в кодировке BITPACKED. Чтобы усилить этот аргумент, я хочу преобразовать BITPACKED в RLE и посмотреть, смогу ли я запрашивать данные.
Я новичок в файлах паркета и не смог найти особой помощи для преобразования кодировок. Может ли кто-нибудь дать мне способы сделать это.
В настоящее время нашим главным подозреваемым является другая кодировка. Но если вы можете догадаться любой другой вопрос. Буду рад изучить возможности.