Публикации по теме 'airflow'
Рекомендации по созданию стека машинного обучения в масштабе стартапа
Модели машинного обучения позволяют кодировать сложную логику в системы черного ящика, заменяя устаревшие решения, требующие более высоких затрат на разработку и обеспечивающие более слабые возможности прогнозирования . Хотя логика прогнозирования может быть запутана моделью, исследования, анализ и инвестиции в инфраструктуру могут легко перевесить время, потраченное на построение запутанных, вложенных операторов «если-то». В этом посте предлагаются некоторые соображения по созданию..
Простой шаблон проектирования воздушного потока — создавайте более масштабируемые конвейеры с помощью Python Fire
Создание надежного интерфейса командной строки
Почему вы не должны использовать оператор Python
Airflow — это вездесущая платформа с открытым исходным кодом для декларативного и программного определения сложных рабочих процессов. Важно отметить, что единицы работы могут быть отправлены и выполнены практически в любом месте, используя богатую экосистему операторов ; и эта экосистема включает в себя сами рабочие узлы Airflow, если вы используете самого скромного из всех операторов,..
Поиск самого быстрого способа передвижения по Нью-Йорку с помощью Apache Airflow — Часть 2
Введение
В предыдущей статье я создал конвейер данных для автоматической загрузки и загрузки ежемесячных данных в Google Cloud Storage и Google BigQuery о поездках Citi Bike по Нью-Йорку. Теперь, когда у нас есть чистые данные, хранящиеся в BigQuery, мы можем сосредоточиться на их анализе, чтобы найти самые быстрые способы передвижения по Нью-Йорку, а также получить другие интересные сведения.
Я создам еще один конвейер данных, используя Apache Airflow, чтобы получать новые данные по..
Построение конвейеров машинного обучения
Что такое DAG?
В современных вычислительных решениях центральное место занимает концепция DAG или направленного ациклического графа. Хотя термин DAG стал довольно модным: понимание того, что они собой представляют, как они используются в вычислениях и как / где они появляются в науке о данных и машинном обучении, - это не просто шумиха. Короче говоря, DAG описывает последовательность шагов выполнения в сложных неповторяющихся вычислениях.
Как часто вы сталкиваетесь с необходимостью..
Google Data Fusion с Cloud Composer в качестве решения для сбора данных
Data Fusion - это облачное решение Google для построения конвейеров данных без какого-либо кода, хотя решение имеет некоторые ограничения (пока) при использовании вместе с Cloud Composer становится действительно мощным инструментом для создания озер данных.
Давайте поговорим о проблемах с Data Fusion:
Поэтому для меня самым большим ограничением, которое я обнаружил с Data Fusion, является то, что вы не можете передавать динамические параметры, единственный динамический параметр,..
Вопросы по теме 'airflow'
Воздушный поток с использованием файлов шаблонов для PythonOperator
Метод получения BashOperator или SqlOperator для получения внешнего файла для своего шаблона несколько четко задокументирован, но если посмотреть на _ 3_ мой тест того, что я понял из документации, не работает. Я не уверен, как параметры...
27631 просмотров
schedule
14.10.2021
Выполнение задания в воздушном потоке на основе веб-запроса
Я хотел знать, можно ли выполнять задачи воздушного потока после получения запроса по HTTP. Меня не интересует часть планирования Airflow. Я просто хочу использовать его вместо сельдерея.
Таким образом, пример операции будет примерно таким....
26252 просмотров
schedule
16.10.2021
Как запустить одну задачу воздушного потока и все ее зависимости?
Я подозревал, что
airflow run dag_id task_id execution_date
будет запускать все восходящие задачи, но это не так. Он просто выйдет из строя, когда увидит, что не все зависимые задачи запущены. Как я могу запустить конкретную задачу и все ее...
8935 просмотров
schedule
14.09.2021
Не удается добавить подключение к Airflow через командную строку для hive_cli
Я запускаю Apache Airflow 1.8 и пытаюсь добавить подключения через интерфейс командной строки для клиентской оболочки куста. Однако при попытке запустить команду
airflow connections -a --conn_id HIVE_CONN2 --conn_uri...
5865 просмотров
schedule
20.10.2021
Датчик воздушного потока для обнаружения файлов на моем локальном диске
Кто-нибудь знает о FileSensor? Я прошел через это, когда занимался поиском файлов в моем локальном каталоге. Код выглядит следующим образом:
task= FileSensor(
task_id="senseFile"
filepath="etc/hosts",
fs_conn_id='fs_local',...
12405 просмотров
schedule
15.10.2021
Структура воздушного потока / организация дагов и задач
Мои вопросы :
Какова хорошая структура каталогов для организации ваших дагов и задач? (примеры дагов показывают только пару задач)
В настоящее время у меня есть свои даги в корне папки дагов, а мои задачи в отдельных каталогах, не уверен, как...
13363 просмотров
schedule
12.11.2021
Ошибка воздушного потока mysql в gcp Dag
Недавно начал работать с Airflow. Я работаю над DAG, который:
Запрашивает базу данных MySQL
Извлеките запрос и сохраните его в сегменте облачного хранилища в виде файла JSON.
Загружает сохраненный файл JSON в BigQuery
Dag импортирует...
852 просмотров
schedule
02.10.2021
Airflow DAG не планируется
Я новичок в Airflow и создал свой первый DAG. Вот мой код DAG. Я хочу, чтобы DAG запускался сейчас, а затем запускался один раз в день.
from airflow import DAG
from airflow.operators.bash_operator import BashOperator
from datetime import...
4469 просмотров
schedule
27.11.2021
Может ли воздушный поток загружать файл dags без планировщика перезапуска
В моем случае я пишу dag-файл по пути dags. После запуска планировщика воздушного потока он успешно загружает файл DAG. Однако он не смог загрузить файл dag после изменения файла dag. Есть ли предложение загрузить файл DAG без планировщика...
2314 просмотров
schedule
06.10.2021
Воздушный поток - получение времени начала прогона
Можно ли узнать фактическое время начала дага в Airflow? Под временем запуска я имею в виду точное время начала выполнения первой задачи дага.
Я знаю, что могу использовать макросы для получения даты выполнения. Если задание выполняется с...
10062 просмотров
schedule
26.09.2021
Как установить apache airflow с github
Проблема : я хочу установить apache-airflow с помощью последней версии Apache-Airflow на Github со всеми зависимостями?
Как я могу это сделать с помощью pip ?
Также безопасно ли использовать это в производственной среде?
3147 просмотров
schedule
20.09.2021
Обратный вызов успеха Airflow DAG
Есть ли элегантный способ определить обратный вызов для успешного события DAG? Я действительно не хочу ставить задачу, которая будет выше всех других задач с on_sucess_callback.
Спасибо!
5864 просмотров
schedule
26.09.2021
Хотите создать задачи воздушного потока, которые находятся ниже по течению от текущей задачи
Я в основном новичок в воздушном потоке.
У меня двухэтапный процесс:
Получить все файлы, соответствующие критериям
Распаковать файлы
Файлы в сжатом виде на полгигаба, а в несжатом - 2 - 3 гига. Я могу легко обрабатывать 20+ файлов за...
849 просмотров
schedule
20.09.2021
Воздушный поток - Как использовать макросы в датчике
Я пытаюсь использовать макросы в датчике GCS в поле «объект», которое создано в соответствии с шаблоном documentation , но он не работает. Пользовательский интерфейс показывает «объект», имеющий макрос в качестве значения.
dag = DAG('dag-name',...
792 просмотров
schedule
20.09.2021
Apache Airflow не планирует задачи
Я установил apache-airflow (версия v1.9.0) вместе с python 2.7. Чтобы проверить, правильно ли он установлен, я попытался запустить учебный DAG из интерактивного представления в браузере. Интерфейс показывает, что группа DAG работает, но планировщик...
1786 просмотров
schedule
23.11.2021
Как динамически добавлять значение bucket_key в S3KeySensor воздушного потока
Я пытаюсь установить bucket_key S3KeySensor на основе входной переменной dagrun. У меня есть один даг «dag_trigger», который использует TriggerDagRunOperator для запуска дагруна для дага «dag_triggered». Я пытаюсь расширить пример...
1961 просмотров
schedule
16.09.2021
ImportError: невозможно импортировать воздушный поток DAG
У меня простой код, я пытаюсь импортировать DAG из воздушного потока
from airflow import DAG
from airflow.operators import BashOperator,S3KeySensor
from datetime import datetime, timedelta
import psycopg2
from datetime import date, timedelta...
8832 просмотров
schedule
11.09.2021
Airflow не будет записывать журналы в s3
Я пробовал разными способами настроить Airflow 1.9 для записи журналов в s3, но он просто игнорирует это. Я обнаружил, что у многих людей возникают проблемы с чтением журналов после этого, однако моя проблема в том, что журналы остаются локальными....
1825 просмотров
schedule
06.10.2021
Создание шаблона bucket_key в S3KeySensor в Apache Airflow
Версия воздушного потока: 1.9.0
В файле dag воздушного потока у меня есть задача PythonOperator с именем run_query , которая устанавливает следующую переменную xcom в своей функции python_callable:...
1447 просмотров
schedule
25.10.2021
Ошибка воздушного потока при настройке подключения к Билайн Улей
Я пытаюсь создать соединение через пользовательский интерфейс Airflow, но при попытке его сохранения получаю сообщение об ошибке пользовательского интерфейса: «Не удалось обновить запись. Неверное заполнение»
Детали подключения:
Идентификатор...
1197 просмотров
schedule
19.10.2021