Статьи по теме delta-lake [amazon-s3, delta-lake, databricks, apache-spark-sql, hive]

Вопросы по теме 'delta-lake'

Как явные разделы таблицы в Databricks влияют на производительность записи?

У нас есть следующий сценарий: У нас есть таблица, содержащая ок. 15 миллиардов записей. Он не был явно разделен при создании. Мы создаем копию этой таблицы с разделами, надеясь на более быстрое чтение определенных типов запросов. Наши...

1667 просмотров

19.09.2021

Концепции Apache Spark + Delta Lake

У меня много сомнений по поводу Spark + Delta. 1) Databricks предлагает 3 слоя (бронза, серебро, золото), но какой слой рекомендуется использовать для машинного обучения и почему? Я полагаю, они предлагают очистить и подготовить данные в...

4727 просмотров

apache-kafka apache-spark delta-lake data-warehouse databricks

07.11.2021

Использование разделов (с partitionBy) при записи дельта-озера не имеет никакого эффекта

Когда я изначально пишу дельта-озеро, используя разделы (с partitionBy) или нет, это не имеет никакого значения. Использование повторного разбиения на тот же столбец перед записью изменяет только количество паркетных файлов. Явное разделение...

893 просмотров

apache-spark delta-lake apache-spark-sql partitioning mapr

07.11.2021

Должен ли кластер Databricks всегда быть готовым к ВАКУУМНОМУ режиму работы Delta Lake?

Я использую Azure Databricks с последней средой выполнения для кластеров. У меня возникла некоторая путаница по поводу работы ВАКУУМА в дельте озера. Мы знаем, что можем установить срок хранения удаленных данных, однако, чтобы фактические данные...

87 просмотров

apache-spark delta-lake azure-databricks databricks

23.09.2021

Стратегия разделения Delta Lake для данных событий

Я пытаюсь создать систему, которая принимает, хранит и может запрашивать данные о событиях приложения. В будущем он будет использоваться для других задач (машинное обучение, аналитика и т. Д.), Поэтому я думаю, что Databricks может быть хорошим...

107 просмотров

apache-spark delta-lake databricks partitioning

13.03.2022

Дельта-обновление Databricks

Как мы можем обновить несколько записей в таблице из другой таблицы, используя дельту блоков данных. Я хочу добиться чего-то вроде: update ExistingTable set IsQualified = updates.IsQualified From updates where ExistingTable.key=...

698 просмотров

delta-lake databricks apache-spark-sql

29.03.2022

Как получить все текущие разделы дельта-таблицы с помощью pyspark?

Я использую версию delta lake с OSS вместе с Spark 3.0.1. Мой текущий вариант использования требует, чтобы я обнаружил все текущие разделы в заданной дельта-таблице. Мои данные хранятся в './data/raw' и разделены столбцом sensorId (указанный...

894 просмотров

apache-spark pyspark delta-lake databricks

02.04.2022

Можно ли подключиться к таблицам deltalake databricks из adf

Я ищу способ подключиться к таблицам deltalake Databricks из ADF и других служб Azure (например, каталога данных). Я не вижу хранилища данных блоков данных, перечисленных в источниках данных ADF. По аналогичному вопросу - возможно читать таблицу...

1697 просмотров

delta-lake azure-data-factory azure-databricks

20.04.2022

Ошибка контрольной суммы Databricks при записи в файл

Я работаю в 9 узлах. Все они собираются записывать некоторую информацию в файлы, выполняя простые операции записи, как показано ниже: dfLogging.coalesce(1).write.format('delta').mode('append').save('/dbfs/' + loggingLocation) Однако я...

776 просмотров

error-handling apache-spark pyspark delta-lake azure-databricks

24.04.2022

Как указать расположение таблицы deltalake в потоковой передаче со структурированной искрой?

У меня есть входящие потоковые данные, которые я сохраняю в виде таблицы deltalake, используя следующий код: cast_dataframe.writeStream.format("delta").outputMode("append") .option("checkpointLocation",checkpointLocation)...

232 просмотров

apache-spark delta-lake spark-structured-streaming

10.05.2022

Databricks - как определяется количество разделов?

Я обрабатываю файл, для которого я запускаю repartition(48, key) перед сохранением в виде дельты. При первоначальном запуске он генерирует около 25 разделов в пределах дельты (нет проблем, поскольку возможно, что ключ привел к тому, что данные...

99 просмотров

apache-spark delta-lake databricks

11.05.2022

При записи в дельта-таблицу обнаружено несоответствие схемы - Azure Databricks

Я пытаюсь загрузить small_radio_json.json в таблицу Delta Lake. После этого кода я бы создал таблицу. Я пытаюсь создать дельта-таблицу, но получаю ошибку. При записи в дельта-таблицу обнаружено несоответствие схемы. Это может быть связано с...

3172 просмотров

delta-lake azure-databricks scala

28.07.2022

Ошибка при попытке переместить данные из локальной базы данных SQL в озеро Дельта Azure

Я пытаюсь переместить большие объемы справочных данных с локального SQL-сервера в озеро Дельта, чтобы использовать их при обработке блоков данных. Чтобы переместить эти данные, я пытаюсь использовать фабрику данных Azure с помощью простого действия...

54 просмотров

azure delta-lake azure-data-factory

22.07.2022

Уровни хранилищ Delta Lake - концепции

Я новичок в Databricks и сомневаюсь в следующем - Databricks предлагает 3 уровня хранения Bronze (необработанные данные), Silver (чистые данные) и Gold (агрегированные данные). Понятно, что эти уровни хранения предназначены для хранения. Но я...

17 просмотров

delta-lake databricks

22.08.2022

java.lang.NoClassDefFoundError: org / apache / spark / sql / катализатор / планы / логический / AnalysisHelper при записи дельта-озера в хранилище s3

Пытался преобразовать какой-то файл pickle в s3 в delta lake. Я использовал boto для загрузки данных и преобразования в искровой фрейм данных, а затем использовал data.write.format ('delta'). Save (s3_path) Но когда я попытался сохранить эти...

3703 просмотров

amazon-s3 apache-spark delta-lake

30.08.2022

Как разрешить Spark java.lang.OutOfMemoryError: пространство кучи Java при записи в формате дельты?

Я загружаю около 4 ГБ данных из файлов паркета в Spark DF. Загрузка занимает несколько сотен миллисекунд. Затем я регистрирую DF как таблицу для выполнения SQL-запросов. sparkDF = sqlContext.read.parquet("<path>/*.parquet")...

1407 просмотров

java apache-spark delta-lake heap-memory

05.10.2022

Запрос Delta Lake изнутри UDF в Databricks

Необходимо выполнить несколько запросов к таблице внутри UDF в структурированной потоковой передаче. Проблема в том, что внутри UDF, если я пытаюсь использовать spark.sql , я получаю исключение нулевого указателя. Как лучше всего следовать здесь?...

246 просмотров

apache-spark delta-lake databricks spark-structured-streaming user-defined-functions

02.10.2022

Одновременное обновление таблицы дельта-озера через несколько заданий

У меня есть дельта-таблица, в которой несколько заданий с помощью блоков данных могут одновременно объединять / вставлять данные в дельта-таблицу. Как я могу предотвратить заражение ConcurrentAppendException ? Я не могу использовать это решение...

681 просмотров

apache-spark delta-lake azure-data-factory azure-databricks databricks

03.10.2022

Как передавать данные из темы Kafka в дельта-таблицу с помощью Spark Structured Streaming

Я пытаюсь понять дельту данных и думаю сделать POC с помощью Kafka. В основном план состоит в том, чтобы использовать данные из Kafka и вставить их в дельта-таблицу databricks. Вот шаги, которые я сделал: Создайте дельта-таблицу для блоков...

1869 просмотров

apache-kafka apache-spark delta-lake spark-structured-streaming scala

02.02.2023

Обрезка перегородок на слиянии дельты озера Искра

Я использую дельта-озеро ("io.delta" %% "delta-core"% "0.4.0") и объединяю в foreachBatch, например: foreachBatch { (s, batchid) => deltaTable.alias("t") .merge( s.as("s"), "s.eventid = t.eventid and...

1099 просмотров

apache-spark delta-lake

24.07.2023