Pandas читает / записывает данные паркета с использованием индекса столбца

Можно ли использовать pandas для выборочного чтения строк из файлов Parquet с использованием индекса столбца?

Точно так же при записи Pandas DataFrame в файл Parquet, например, с использованием pd.DataFrame.to_parquet(), можно ли указать уровень столбца или индекса DataFrame, который будет использоваться в качестве индекса столбца Parquet?

Я надеюсь, что использование индекса Parquet может ускорить чтение / запись.

В настоящее время используется fastparquet 0.4.0, pandas 1.0.3 и Python 3.8.3.


person Athena Wisdom    schedule 07.06.2020    source источник
comment
Parquet не имеет прямого эквивалента индексу pandas DataFrame. Однако он поддерживает отслеживание минимальной / максимальной статистики фрагментов файла, что позволяет пропускать части файла при чтении с определенным фильтром. Но это можно сделать для любого столбца в файле Parquet, если есть статистика.   -  person joris    schedule 09.06.2020