Я новичок в Даске,
У меня 152 паркетных файла в среднем 200 МБ (32 ГБ ОЗУ станка).
В каждом файле есть столбец Timestamp, и я хочу сделать этот столбец разделом (индексом).
Если я установил столбец Timestamp как индекс, будет слишком много разделов, поэтому мне нужно преобразовать его в Date - ›
ddf = dd.read_parquet('gs://bucket_name/*.parquet')
ddf['partition'] = dd.to_datetime(ddf['event_time'], format='%Y/%m/%d')
Я успешно выполнил другие операции, такие как groupby и т. Д.
Как лучше всего справиться с этой ситуацией, если мне нужен паркетный файл с разделами для быстрого запроса по разделам?