В нашем проекте мы используем kedro. Обычно можно определять наборы данных как таковые:
client_table:
type: spark.SparkDataSet
filepath: ${base_path_spark}/${env}/client_table
file_format: parquet
save_args:
mode: overwrite
Сейчас мы используем блоки данных, и они предлагают множество оптимизации, например autoOptimizeShuffle
. Мы рассматриваем возможность использовать это для обработки наших наборов данных 15 ТБ +.
Однако мне непонятно, как использовать kedro с решением databricks delta lake.