Публикации по теме 'azure-databricks'
Млфлов и Azure Databricks
Databricks — один из лучших вариантов среди специалистов по данным для запуска своих кодов машинного обучения. Чтобы помочь им управлять своими кодами и моделями, MLflow был интегрирован с Databricks.
MLflow — это платформа с открытым исходным кодом для управления сквозным жизненным циклом машинного обучения. Azure Databricks предоставляет полностью управляемую и размещенную версию MLflow, интегрированную с корпоративными функциями безопасности, высокой доступностью и другими..
Azure Databricks MLFlow CI/CD с Azure DevOps
CI/CD для обучения модели машинного обучения с помощью многопоточного и пакетного логического вывода
Предпосылка
Учетная запись Azure Учетная запись хранения Azure Azure DevOps Azure Databricks Azure DevOps — установка Databricks Market Place Github для хранения кода
Данные
Перейдите к https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/ и загрузите файлы winequality-red.csv и winequality-white.csv на свой локальный компьютер. Скачивание на локальные..
Вопросы по теме 'azure-databricks'
Проблема с подключением к таблице Databricks из фабрики данных Azure с помощью соединителя Spark odbc
Нам удалось получить действительное соединение от фабрики данных Azure к нашему кластеру Azure Databricks с помощью соединителя Spark (odbc). В списке таблиц мы получаем ожидаемый список, но при запросе конкретной таблицы мы получаем исключение....
640 просмотров
schedule
19.10.2021
Перенос данных из azure sql в Databricks
Я новичок в databricks, я здесь столкнулся с проблемой перемещения данных из базы данных Azure Sql в Azure Databricks, может ли кто-нибудь помочь мне в этом?
58 просмотров
schedule
24.09.2021
Как можно быстрее удалить файлы в большом двоичном объекте Azure с помощью Spark?
Я использую Databricks / Spark в Azure. Я хочу удалить более 100 000 текстовых файлов, хранящихся в большом двоичном объекте. Капля смонтирована. Мой код для параллельного удаления этих файлов с использованием Python (PySpark) выглядит следующим...
2157 просмотров
schedule
05.10.2021
Удаление записей в таблице с миллиардом записей с помощью Spark или Scala
у нас есть таблица в хранилище данных Azure с 17 миллиардами записей. Теперь у нас есть сценарий, в котором мы должны удалить записи из этой таблицы на основе некоторого условия. Мы пишем Spark на языке Scala в записных книжках Azure Databricks....
268 просмотров
schedule
26.10.2021
белый список лазурных блоков данных в атласе MondoDB
Я внес в белый список IP-адрес Azure Databricks и блоки NAT Control Plan, и блоки CIDR IP веб-приложения, как описано здесь:
https://docs.azuredatabricks.net/administration-guide/cloud-configurations/azure/vnet-inject.html#vnet-inject .
в...
402 просмотров
schedule
22.09.2021
не удается заставить selenium webdriver работать в лазурных модулях данных
У нас есть несколько скриптов на Python, которые очищают веб-сайты и хорошо работают. Теперь мы хотим сделать это в Azure Databricks. Мы думали, что у нас есть решение сделать это в следующем сообщении на форуме Databricks, но, к сожалению, это не...
967 просмотров
schedule
22.11.2021
MERGE (UPSERT) - AZURE SQL DWH
Я давно работаю с локальными решениями DWH. Теперь переходим на AZURE DWH.
Прямо сейчас я готов выполнить большую часть обработки / преобразования в Azure Databricks и записать набор результатов в промежуточные таблицы Azure SQL DWH.
Теперь я...
3241 просмотров
schedule
02.11.2021
Работа Python для Azure Databricks
У меня есть требование проанализировать множество небольших неструктурированных файлов почти в реальном времени внутри Azure и загрузить проанализированные данные в базу данных SQL. Я выбрал Python (потому что я не думаю, что какой-либо кластер...
206 просмотров
schedule
19.10.2021
Не удается получить доступ к смонтированному тому с помощью Python на Databricks
Я пытаюсь предоставить доступ к контейнеру учетной записи хранения Azure Gen2 группе в их рабочей области Databricks, подключив его к dbfs с помощью сквозной передачи учетных данных. Я хочу иметь возможность управлять доступом с помощью Active...
1174 просмотров
schedule
07.10.2021
Azure Databricks: создание контрольного журнала для того, кто и в какой момент выполнял какой запрос
У нас есть требование аудита, чтобы получить представление о том, кто и в какой момент выполнил какой запрос в Azure Databricks. На вкладке Azure Databricks / Spark UI / Jobs уже перечислены выполненные задания Spark, включая выполненный запрос и...
142 просмотров
schedule
20.09.2021
Почему withColumn так долго работает в pyspark?
У меня есть фреймворк pyspark, содержащий 1000 столбцов и 10000 записей (строк). Мне нужно создать еще 2000 столбцов, выполнив некоторые вычисления для существующих столбцов.
df #pyspark dataframe contaning 1000 columns and 10,000 records
df =...
294 просмотров
schedule
06.11.2021
Записная книжка Databricks запускается из Node.js
Я пытаюсь вызвать API Databricks для запуска записной книжки или задания по его идентификатору с помощью конечной точки API api/2.0/jobs/run-now , но получаю сообщение об ошибке, например getaddrinfo ENOTFOUND...
239 просмотров
schedule
07.11.2021
Как установить библиотеку в автоматизированный кластер Databricks
Я выполняю задание в автоматизированном кластере Databricks, но задание продолжает давать сбой, потому что ему нужна следующая библиотека:
com.microsoft.azure:azure-sqldb-spark:1.0.2
Однако кластер должен работать, чтобы установить библиотеку, но...
314 просмотров
schedule
13.09.2021
org.postgresql.util.PSQLException: ошибка SSL: получено фатальное предупреждение: handshake_failure при записи из Azure Databricks в Azure Postgres Citus
Я пытаюсь записать фрейм данных pyspark в Azure Postgres Citus (Hyperscale). Я использую последнюю версию драйвера Postgres JDBC и пробовал писать на Databricks Runtime 7,6,5....
1091 просмотров
schedule
01.10.2021
Как добавить проверку в конвейер фабрики данных Azure для проверки размера файла?
У меня есть несколько источников данных. Я хочу добавить проверку в фабрике данных Azure перед загрузкой в таблицы, которые должны проверять размер файла, чтобы он не был пустым. Таким образом, если размер файла превышает 10 КБ или он не пустой,...
847 просмотров
schedule
14.11.2021
Как обрабатывать пробелы в столбце varchar not null из таблицы синапсов azure для создания блоков данных
У меня проблема, когда я читаю таблицу в искре (используя лазурные блоки данных) из базы данных синапсов. Таблица определена следующим образом:
CREATE TABLE A
(
[ID] [int] NOT NULL,
[Value] [int] NOT NULL,
[Description] [nvarchar](30)...
236 просмотров
schedule
15.09.2021
Я не могу создавать и загружать данные из фрейма данных Spark в блоках данных в Azure Synapse (DWH)
Я новичок в этой области и сейчас играю с Azure и Databricks. Я принял файл Json из blob в блоки данных, сделал некоторые преобразования и теперь хочу загрузить его в чистый DWH (Synapse) в Azure.
Выполнение кода показывает ошибку в: .mode...
189 просмотров
schedule
25.11.2021
Блоки данных Azure - не удается читать файлы .csv с помощью искровых заданий из службы хранилища данных 2-го поколения.
У меня есть клистер с данными, работающий нормально. И с помощью следующего кода я также могу смонтировать свою учетную запись хранилища данных datalake gen2. Монтирую все на / mnt / data1
val configs = Map("fs.azure.account.auth.type"...
67 просмотров
schedule
12.11.2021
Реализация DevOps для файлов DBFS DataBricks
Я пытаюсь реализовать DevOps на фабрике данных Azure и Azure Databricks.
Я завершил реализацию DevOps для файлов записных книжек ADF DevOps и Databricks.
После развертывания кажется, что есть некоторые проблемы с конвейерами ADF, которые извлекают...
144 просмотров
schedule
18.09.2021
Должен ли кластер Databricks всегда быть готовым к ВАКУУМНОМУ режиму работы Delta Lake?
Я использую Azure Databricks с последней средой выполнения для кластеров. У меня возникла некоторая путаница по поводу работы ВАКУУМА в дельте озера. Мы знаем, что можем установить срок хранения удаленных данных, однако, чтобы фактические данные...
87 просмотров
schedule
23.09.2021