Вопросы по теме 'delta-lake'

Как явные разделы таблицы в Databricks влияют на производительность записи?
У нас есть следующий сценарий: У нас есть таблица, содержащая ок. 15 миллиардов записей. Он не был явно разделен при создании. Мы создаем копию этой таблицы с разделами, надеясь на более быстрое чтение определенных типов запросов. Наши...
1667 просмотров

Концепции Apache Spark + Delta Lake
У меня много сомнений по поводу Spark + Delta. 1) Databricks предлагает 3 слоя (бронза, серебро, золото), но какой слой рекомендуется использовать для машинного обучения и почему? Я полагаю, они предлагают очистить и подготовить данные в...
4727 просмотров

Использование разделов (с partitionBy) при записи дельта-озера не имеет никакого эффекта
Когда я изначально пишу дельта-озеро, используя разделы (с partitionBy) или нет, это не имеет никакого значения. Использование повторного разбиения на тот же столбец перед записью изменяет только количество паркетных файлов. Явное разделение...
893 просмотров

Должен ли кластер Databricks всегда быть готовым к ВАКУУМНОМУ режиму работы Delta Lake?
Я использую Azure Databricks с последней средой выполнения для кластеров. У меня возникла некоторая путаница по поводу работы ВАКУУМА в дельте озера. Мы знаем, что можем установить срок хранения удаленных данных, однако, чтобы фактические данные...
87 просмотров

Стратегия разделения Delta Lake для данных событий
Я пытаюсь создать систему, которая принимает, хранит и может запрашивать данные о событиях приложения. В будущем он будет использоваться для других задач (машинное обучение, аналитика и т. Д.), Поэтому я думаю, что Databricks может быть хорошим...
107 просмотров

Дельта-обновление Databricks
Как мы можем обновить несколько записей в таблице из другой таблицы, используя дельту блоков данных. Я хочу добиться чего-то вроде: update ExistingTable set IsQualified = updates.IsQualified From updates where ExistingTable.key=...
698 просмотров
schedule 29.03.2022

Как получить все текущие разделы дельта-таблицы с помощью pyspark?
Я использую версию delta lake с OSS вместе с Spark 3.0.1. Мой текущий вариант использования требует, чтобы я обнаружил все текущие разделы в заданной дельта-таблице. Мои данные хранятся в './data/raw' и разделены столбцом sensorId (указанный...
894 просмотров

Можно ли подключиться к таблицам deltalake databricks из adf
Я ищу способ подключиться к таблицам deltalake Databricks из ADF и других служб Azure (например, каталога данных). Я не вижу хранилища данных блоков данных, перечисленных в источниках данных ADF. По аналогичному вопросу - возможно читать таблицу...
1697 просмотров

Ошибка контрольной суммы Databricks при записи в файл
Я работаю в 9 узлах. Все они собираются записывать некоторую информацию в файлы, выполняя простые операции записи, как показано ниже: dfLogging.coalesce(1).write.format('delta').mode('append').save('/dbfs/' + loggingLocation) Однако я...
776 просмотров

Как указать расположение таблицы deltalake в потоковой передаче со структурированной искрой?
У меня есть входящие потоковые данные, которые я сохраняю в виде таблицы deltalake, используя следующий код: cast_dataframe.writeStream.format("delta").outputMode("append") .option("checkpointLocation",checkpointLocation)...
232 просмотров

Databricks - как определяется количество разделов?
Я обрабатываю файл, для которого я запускаю repartition(48, key) перед сохранением в виде дельты. При первоначальном запуске он генерирует около 25 разделов в пределах дельты (нет проблем, поскольку возможно, что ключ привел к тому, что данные...
99 просмотров
schedule 11.05.2022

При записи в дельта-таблицу обнаружено несоответствие схемы - Azure Databricks
Я пытаюсь загрузить small_radio_json.json в таблицу Delta Lake. После этого кода я бы создал таблицу. Я пытаюсь создать дельта-таблицу, но получаю ошибку. При записи в дельта-таблицу обнаружено несоответствие схемы. Это может быть связано с...
3172 просмотров
schedule 28.07.2022

Ошибка при попытке переместить данные из локальной базы данных SQL в озеро Дельта Azure
Я пытаюсь переместить большие объемы справочных данных с локального SQL-сервера в озеро Дельта, чтобы использовать их при обработке блоков данных. Чтобы переместить эти данные, я пытаюсь использовать фабрику данных Azure с помощью простого действия...
54 просмотров
schedule 22.07.2022

Уровни хранилищ Delta Lake - концепции
Я новичок в Databricks и сомневаюсь в следующем - Databricks предлагает 3 уровня хранения Bronze (необработанные данные), Silver (чистые данные) и Gold (агрегированные данные). Понятно, что эти уровни хранения предназначены для хранения. Но я...
17 просмотров
schedule 22.08.2022

java.lang.NoClassDefFoundError: org / apache / spark / sql / катализатор / планы / логический / AnalysisHelper при записи дельта-озера в хранилище s3
Пытался преобразовать какой-то файл pickle в s3 в delta lake. Я использовал boto для загрузки данных и преобразования в искровой фрейм данных, а затем использовал data.write.format ('delta'). Save (s3_path) Но когда я попытался сохранить эти...
3703 просмотров
schedule 30.08.2022

Как разрешить Spark java.lang.OutOfMemoryError: пространство кучи Java при записи в формате дельты?
Я загружаю около 4 ГБ данных из файлов паркета в Spark DF. Загрузка занимает несколько сотен миллисекунд. Затем я регистрирую DF как таблицу для выполнения SQL-запросов. sparkDF = sqlContext.read.parquet("<path>/*.parquet")...
1407 просмотров
schedule 05.10.2022

Запрос Delta Lake изнутри UDF в Databricks
Необходимо выполнить несколько запросов к таблице внутри UDF в структурированной потоковой передаче. Проблема в том, что внутри UDF, если я пытаюсь использовать spark.sql , я получаю исключение нулевого указателя. Как лучше всего следовать здесь?...
246 просмотров

Одновременное обновление таблицы дельта-озера через несколько заданий
У меня есть дельта-таблица, в которой несколько заданий с помощью блоков данных могут одновременно объединять / вставлять данные в дельта-таблицу. Как я могу предотвратить заражение ConcurrentAppendException ? Я не могу использовать это решение...
681 просмотров

Как передавать данные из темы Kafka в дельта-таблицу с помощью Spark Structured Streaming
Я пытаюсь понять дельту данных и думаю сделать POC с помощью Kafka. В основном план состоит в том, чтобы использовать данные из Kafka и вставить их в дельта-таблицу databricks. Вот шаги, которые я сделал: Создайте дельта-таблицу для блоков...
1869 просмотров

Обрезка перегородок на слиянии дельты озера Искра
Я использую дельта-озеро ("io.delta" %% "delta-core"% "0.4.0") и объединяю в foreachBatch, например: foreachBatch { (s, batchid) => deltaTable.alias("t") .merge( s.as("s"), "s.eventid = t.eventid and...
1099 просмотров
schedule 24.07.2023