(отвечая только на 1), пожалуйста, разместите отдельные вопросы, чтобы было легче ответить)
_metadata
и _common_metadata
— это вспомогательные файлы, которые не требуются для набора данных Parquet, они используются Spark/Dask/Hive/... для вывода метаданных всех файлов Parquet набора данных без необходимости чтения нижнего колонтитула всех файлов. . В отличие от этого, Apache Drill создает аналогичный файл в каждой папке (по требованию), который содержит все нижние колонтитулы всех файлов Parquet. Только при первом запросе к набору данных читаются все файлы, дальнейшие запросы будут читать только файл, который кэширует все нижние колонтитулы.
Инструменты, использующие _metadata
и _common_metadata
, должны иметь возможность использовать их, чтобы иметь более быстрое время выполнения, но не зависеть от них для операций. В случае, если они не существуют, обработчик запросов просто должен прочитать все нижние колонтитулы.
person
Uwe L. Korn
schedule
31.07.2017