У меня есть требование проанализировать множество небольших неструктурированных файлов почти в реальном времени внутри Azure и загрузить проанализированные данные в базу данных SQL. Я выбрал Python (потому что я не думаю, что какой-либо кластер Spark или большие данные подойдут, учитывая объем исходных файлов и их размер), и логика синтаксического анализа уже написана. Я с нетерпением жду возможности запланировать этот скрипт python разными способами с помощью Azure PaaS.
- Фабрика данных Azure
- Azure Databricks
- Оба 1 + 2
Могу я спросить, каковы последствия выполнения действия записной книжки Python из фабрики данных Azure, указывающего на Azure Databricks? Смогу ли я полностью использовать потенциал кластера (Водители и рабочие)?
Кроме того, посоветуйте мне, если вы считаете, что сценарий должен быть преобразован в PySpark, чтобы удовлетворить требованиям моего варианта использования для запуска в Azure Databricks? Единственное сомнение здесь в том, что файлы в КБ и неструктурированы.