Публикации по теме 'azure-databricks'


Млфлов и Azure Databricks
Databricks — один из лучших вариантов среди специалистов по данным для запуска своих кодов машинного обучения. Чтобы помочь им управлять своими кодами и моделями, MLflow был интегрирован с Databricks. MLflow — это платформа с открытым исходным кодом для управления сквозным жизненным циклом машинного обучения. Azure Databricks предоставляет полностью управляемую и размещенную версию MLflow, интегрированную с корпоративными функциями безопасности, высокой доступностью и другими..

Azure Databricks MLFlow CI/CD с Azure DevOps
CI/CD для обучения модели машинного обучения с помощью многопоточного и пакетного логического вывода Предпосылка Учетная запись Azure Учетная запись хранения Azure Azure DevOps Azure Databricks Azure DevOps — установка Databricks Market Place Github для хранения кода Данные Перейдите к https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/ и загрузите файлы winequality-red.csv и winequality-white.csv на свой локальный компьютер. Скачивание на локальные..

Вопросы по теме 'azure-databricks'

Проблема с подключением к таблице Databricks из фабрики данных Azure с помощью соединителя Spark odbc
Нам удалось получить действительное соединение от фабрики данных Azure к нашему кластеру Azure Databricks с помощью соединителя Spark (odbc). В списке таблиц мы получаем ожидаемый список, но при запросе конкретной таблицы мы получаем исключение....
640 просмотров

Перенос данных из azure sql в Databricks
Я новичок в databricks, я здесь столкнулся с проблемой перемещения данных из базы данных Azure Sql в Azure Databricks, может ли кто-нибудь помочь мне в этом?
58 просмотров
schedule 24.09.2021

Как можно быстрее удалить файлы в большом двоичном объекте Azure с помощью Spark?
Я использую Databricks / Spark в Azure. Я хочу удалить более 100 000 текстовых файлов, хранящихся в большом двоичном объекте. Капля смонтирована. Мой код для параллельного удаления этих файлов с использованием Python (PySpark) выглядит следующим...
2157 просмотров

Удаление записей в таблице с миллиардом записей с помощью Spark или Scala
у нас есть таблица в хранилище данных Azure с 17 миллиардами записей. Теперь у нас есть сценарий, в котором мы должны удалить записи из этой таблицы на основе некоторого условия. Мы пишем Spark на языке Scala в записных книжках Azure Databricks....
268 просмотров
schedule 26.10.2021

белый список лазурных блоков данных в атласе MondoDB
Я внес в белый список IP-адрес Azure Databricks и блоки NAT Control Plan, и блоки CIDR IP веб-приложения, как описано здесь: https://docs.azuredatabricks.net/administration-guide/cloud-configurations/azure/vnet-inject.html#vnet-inject . в...
402 просмотров

не удается заставить selenium webdriver работать в лазурных модулях данных
У нас есть несколько скриптов на Python, которые очищают веб-сайты и хорошо работают. Теперь мы хотим сделать это в Azure Databricks. Мы думали, что у нас есть решение сделать это в следующем сообщении на форуме Databricks, но, к сожалению, это не...
967 просмотров

MERGE (UPSERT) - AZURE SQL DWH
Я давно работаю с локальными решениями DWH. Теперь переходим на AZURE DWH. Прямо сейчас я готов выполнить большую часть обработки / преобразования в Azure Databricks и записать набор результатов в промежуточные таблицы Azure SQL DWH. Теперь я...
3241 просмотров

Работа Python для Azure Databricks
У меня есть требование проанализировать множество небольших неструктурированных файлов почти в реальном времени внутри Azure и загрузить проанализированные данные в базу данных SQL. Я выбрал Python (потому что я не думаю, что какой-либо кластер...
206 просмотров

Не удается получить доступ к смонтированному тому с помощью Python на Databricks
Я пытаюсь предоставить доступ к контейнеру учетной записи хранения Azure Gen2 группе в их рабочей области Databricks, подключив его к dbfs с помощью сквозной передачи учетных данных. Я хочу иметь возможность управлять доступом с помощью Active...
1174 просмотров

Azure Databricks: создание контрольного журнала для того, кто и в какой момент выполнял какой запрос
У нас есть требование аудита, чтобы получить представление о том, кто и в какой момент выполнил какой запрос в Azure Databricks. На вкладке Azure Databricks / Spark UI / Jobs уже перечислены выполненные задания Spark, включая выполненный запрос и...
142 просмотров
schedule 20.09.2021

Почему withColumn так долго работает в pyspark?
У меня есть фреймворк pyspark, содержащий 1000 столбцов и 10000 записей (строк). Мне нужно создать еще 2000 столбцов, выполнив некоторые вычисления для существующих столбцов. df #pyspark dataframe contaning 1000 columns and 10,000 records df =...
294 просмотров

Записная книжка Databricks запускается из Node.js
Я пытаюсь вызвать API Databricks для запуска записной книжки или задания по его идентификатору с помощью конечной точки API api/2.0/jobs/run-now , но получаю сообщение об ошибке, например getaddrinfo ENOTFOUND...
239 просмотров
schedule 07.11.2021

Как установить библиотеку в автоматизированный кластер Databricks
Я выполняю задание в автоматизированном кластере Databricks, но задание продолжает давать сбой, потому что ему нужна следующая библиотека: com.microsoft.azure:azure-sqldb-spark:1.0.2 Однако кластер должен работать, чтобы установить библиотеку, но...
314 просмотров
schedule 13.09.2021

org.postgresql.util.PSQLException: ошибка SSL: получено фатальное предупреждение: handshake_failure при записи из Azure Databricks в Azure Postgres Citus
Я пытаюсь записать фрейм данных pyspark в Azure Postgres Citus (Hyperscale). Я использую последнюю версию драйвера Postgres JDBC и пробовал писать на Databricks Runtime 7,6,5....
1091 просмотров

Как добавить проверку в конвейер фабрики данных Azure для проверки размера файла?
У меня есть несколько источников данных. Я хочу добавить проверку в фабрике данных Azure перед загрузкой в ​​таблицы, которые должны проверять размер файла, чтобы он не был пустым. Таким образом, если размер файла превышает 10 КБ или он не пустой,...
847 просмотров

Как обрабатывать пробелы в столбце varchar not null из таблицы синапсов azure для создания блоков данных
У меня проблема, когда я читаю таблицу в искре (используя лазурные блоки данных) из базы данных синапсов. Таблица определена следующим образом: CREATE TABLE A ( [ID] [int] NOT NULL, [Value] [int] NOT NULL, [Description] [nvarchar](30)...
236 просмотров

Я не могу создавать и загружать данные из фрейма данных Spark в блоках данных в Azure Synapse (DWH)
Я новичок в этой области и сейчас играю с Azure и Databricks. Я принял файл Json из blob в блоки данных, сделал некоторые преобразования и теперь хочу загрузить его в чистый DWH (Synapse) в Azure. Выполнение кода показывает ошибку в: .mode...
189 просмотров

Блоки данных Azure - не удается читать файлы .csv с помощью искровых заданий из службы хранилища данных 2-го поколения.
У меня есть клистер с данными, работающий нормально. И с помощью следующего кода я также могу смонтировать свою учетную запись хранилища данных datalake gen2. Монтирую все на / mnt / data1 val configs = Map("fs.azure.account.auth.type"...
67 просмотров

Реализация DevOps для файлов DBFS DataBricks
Я пытаюсь реализовать DevOps на фабрике данных Azure и Azure Databricks. Я завершил реализацию DevOps для файлов записных книжек ADF DevOps и Databricks. После развертывания кажется, что есть некоторые проблемы с конвейерами ADF, которые извлекают...
144 просмотров

Должен ли кластер Databricks всегда быть готовым к ВАКУУМНОМУ режиму работы Delta Lake?
Я использую Azure Databricks с последней средой выполнения для кластеров. У меня возникла некоторая путаница по поводу работы ВАКУУМА в дельте озера. Мы знаем, что можем установить срок хранения удаленных данных, однако, чтобы фактические данные...
87 просмотров