Как можно использовать формат дельта-озера Databricks с Kedro?

В нашем проекте мы используем kedro. Обычно можно определять наборы данных как таковые:

client_table:
  type: spark.SparkDataSet
  filepath: ${base_path_spark}/${env}/client_table
  file_format: parquet
  save_args:
    mode: overwrite

Сейчас мы используем блоки данных, и они предлагают множество оптимизации, например autoOptimizeShuffle. Мы рассматриваем возможность использовать это для обработки наших наборов данных 15 ТБ +.

Однако мне непонятно, как использовать kedro с решением databricks delta lake.


person pascalwhoop    schedule 02.11.2020    source источник


Ответы (1)


Это сработало для нас.

    client_table:
      type: kedro.contrib.io.pyspark.SparkDataSet
      filepath: ${base_path_spark}/${env}/client_table
      file_format: "delta"
      save_args:
        mode: overwrite
person jovib    schedule 06.01.2021