Как можно использовать формат дельта-озера Databricks с Kedro?

В нашем проекте мы используем kedro. Обычно можно определять наборы данных как таковые:

client_table:
  type: spark.SparkDataSet
  filepath: ${base_path_spark}/${env}/client_table
  file_format: parquet
  save_args:
    mode: overwrite

Сейчас мы используем блоки данных, и они предлагают множество оптимизации, например autoOptimizeShuffle. Мы рассматриваем возможность использовать это для обработки наших наборов данных 15 ТБ +.

Однако мне непонятно, как использовать kedro с решением databricks delta lake.

pyspark databricks kedro

pascalwhoop 02.11.2020 источник

Ответы (1)

arrow_upward
0
arrow_downward

Это сработало для нас.

    client_table:
      type: kedro.contrib.io.pyspark.SparkDataSet
      filepath: ${base_path_spark}/${env}/client_table
      file_format: "delta"
      save_args:
        mode: overwrite

jovib 06.01.2021

Как можно использовать формат дельта-озера Databricks с Kedro?

Ответы (1)

Вопросы по теме