Публикации по теме 'airflow'


Рекомендации по созданию стека машинного обучения в масштабе стартапа
Модели машинного обучения позволяют кодировать сложную логику в системы черного ящика, заменяя устаревшие решения, требующие более высоких затрат на разработку и обеспечивающие более слабые возможности прогнозирования . Хотя логика прогнозирования может быть запутана моделью, исследования, анализ и инвестиции в инфраструктуру могут легко перевесить время, потраченное на построение запутанных, вложенных операторов «если-то». В этом посте предлагаются некоторые соображения по созданию..

Простой шаблон проектирования воздушного потока — создавайте более масштабируемые конвейеры с помощью Python Fire
Создание надежного интерфейса командной строки Почему вы не должны использовать оператор Python Airflow — это вездесущая платформа с открытым исходным кодом для декларативного и программного определения сложных рабочих процессов. Важно отметить, что единицы работы могут быть отправлены и выполнены практически в любом месте, используя богатую экосистему операторов ; и эта экосистема включает в себя сами рабочие узлы Airflow, если вы используете самого скромного из всех операторов,..

Поиск самого быстрого способа передвижения по Нью-Йорку с помощью Apache Airflow — Часть 2
Введение В предыдущей статье я создал конвейер данных для автоматической загрузки и загрузки ежемесячных данных в Google Cloud Storage и Google BigQuery о поездках Citi Bike по Нью-Йорку. Теперь, когда у нас есть чистые данные, хранящиеся в BigQuery, мы можем сосредоточиться на их анализе, чтобы найти самые быстрые способы передвижения по Нью-Йорку, а также получить другие интересные сведения. Я создам еще один конвейер данных, используя Apache Airflow, чтобы получать новые данные по..

Построение конвейеров машинного обучения
Что такое DAG? В современных вычислительных решениях центральное место занимает концепция DAG или направленного ациклического графа. Хотя термин DAG стал довольно модным: понимание того, что они собой представляют, как они используются в вычислениях и как / где они появляются в науке о данных и машинном обучении, - это не просто шумиха. Короче говоря, DAG описывает последовательность шагов выполнения в сложных неповторяющихся вычислениях. Как часто вы сталкиваетесь с необходимостью..

Google Data Fusion с Cloud Composer в качестве решения для сбора данных
Data Fusion - это облачное решение Google для построения конвейеров данных без какого-либо кода, хотя решение имеет некоторые ограничения (пока) при использовании вместе с Cloud Composer становится действительно мощным инструментом для создания озер данных. Давайте поговорим о проблемах с Data Fusion: Поэтому для меня самым большим ограничением, которое я обнаружил с Data Fusion, является то, что вы не можете передавать динамические параметры, единственный динамический параметр,..

Вопросы по теме 'airflow'

Воздушный поток с использованием файлов шаблонов для PythonOperator
Метод получения BashOperator или SqlOperator для получения внешнего файла для своего шаблона несколько четко задокументирован, но если посмотреть на _ 3_ мой тест того, что я понял из документации, не работает. Я не уверен, как параметры...
27631 просмотров
schedule 14.10.2021

Выполнение задания в воздушном потоке на основе веб-запроса
Я хотел знать, можно ли выполнять задачи воздушного потока после получения запроса по HTTP. Меня не интересует часть планирования Airflow. Я просто хочу использовать его вместо сельдерея. Таким образом, пример операции будет примерно таким....
26252 просмотров
schedule 16.10.2021

Как запустить одну задачу воздушного потока и все ее зависимости?
Я подозревал, что airflow run dag_id task_id execution_date будет запускать все восходящие задачи, но это не так. Он просто выйдет из строя, когда увидит, что не все зависимые задачи запущены. Как я могу запустить конкретную задачу и все ее...
8935 просмотров
schedule 14.09.2021

Не удается добавить подключение к Airflow через командную строку для hive_cli
Я запускаю Apache Airflow 1.8 и пытаюсь добавить подключения через интерфейс командной строки для клиентской оболочки куста. Однако при попытке запустить команду airflow connections -a --conn_id HIVE_CONN2 --conn_uri...
5865 просмотров

Датчик воздушного потока для обнаружения файлов на моем локальном диске
Кто-нибудь знает о FileSensor? Я прошел через это, когда занимался поиском файлов в моем локальном каталоге. Код выглядит следующим образом: task= FileSensor( task_id="senseFile" filepath="etc/hosts", fs_conn_id='fs_local',...
12405 просмотров
schedule 15.10.2021

Структура воздушного потока / организация дагов и задач
Мои вопросы : Какова хорошая структура каталогов для организации ваших дагов и задач? (примеры дагов показывают только пару задач) В настоящее время у меня есть свои даги в корне папки дагов, а мои задачи в отдельных каталогах, не уверен, как...
13363 просмотров
schedule 12.11.2021

Ошибка воздушного потока mysql в gcp Dag
Недавно начал работать с Airflow. Я работаю над DAG, который: Запрашивает базу данных MySQL Извлеките запрос и сохраните его в сегменте облачного хранилища в виде файла JSON. Загружает сохраненный файл JSON в BigQuery Dag импортирует...
852 просмотров

Airflow DAG не планируется
Я новичок в Airflow и создал свой первый DAG. Вот мой код DAG. Я хочу, чтобы DAG запускался сейчас, а затем запускался один раз в день. from airflow import DAG from airflow.operators.bash_operator import BashOperator from datetime import...
4469 просмотров

Может ли воздушный поток загружать файл dags без планировщика перезапуска
В моем случае я пишу dag-файл по пути dags. После запуска планировщика воздушного потока он успешно загружает файл DAG. Однако он не смог загрузить файл dag после изменения файла dag. Есть ли предложение загрузить файл DAG без планировщика...
2314 просмотров

Воздушный поток - получение времени начала прогона
Можно ли узнать фактическое время начала дага в Airflow? Под временем запуска я имею в виду точное время начала выполнения первой задачи дага. Я знаю, что могу использовать макросы для получения даты выполнения. Если задание выполняется с...
10062 просмотров
schedule 26.09.2021

Как установить apache airflow с github
Проблема : я хочу установить apache-airflow с помощью последней версии Apache-Airflow на Github со всеми зависимостями? Как я могу это сделать с помощью pip ? Также безопасно ли использовать это в производственной среде?
3147 просмотров
schedule 20.09.2021

Обратный вызов успеха Airflow DAG
Есть ли элегантный способ определить обратный вызов для успешного события DAG? Я действительно не хочу ставить задачу, которая будет выше всех других задач с on_sucess_callback. Спасибо!
5864 просмотров
schedule 26.09.2021

Хотите создать задачи воздушного потока, которые находятся ниже по течению от текущей задачи
Я в основном новичок в воздушном потоке. У меня двухэтапный процесс: Получить все файлы, соответствующие критериям Распаковать файлы Файлы в сжатом виде на полгигаба, а в несжатом - 2 - 3 гига. Я могу легко обрабатывать 20+ файлов за...
849 просмотров
schedule 20.09.2021

Воздушный поток - Как использовать макросы в датчике
Я пытаюсь использовать макросы в датчике GCS в поле «объект», которое создано в соответствии с шаблоном documentation , но он не работает. Пользовательский интерфейс показывает «объект», имеющий макрос в качестве значения. dag = DAG('dag-name',...
792 просмотров
schedule 20.09.2021

Apache Airflow не планирует задачи
Я установил apache-airflow (версия v1.9.0) вместе с python 2.7. Чтобы проверить, правильно ли он установлен, я попытался запустить учебный DAG из интерактивного представления в браузере. Интерфейс показывает, что группа DAG работает, но планировщик...
1786 просмотров

Как динамически добавлять значение bucket_key в S3KeySensor воздушного потока
Я пытаюсь установить bucket_key S3KeySensor на основе входной переменной dagrun. У меня есть один даг «dag_trigger», который использует TriggerDagRunOperator для запуска дагруна для дага «dag_triggered». Я пытаюсь расширить пример...
1961 просмотров

ImportError: невозможно импортировать воздушный поток DAG
У меня простой код, я пытаюсь импортировать DAG из воздушного потока from airflow import DAG from airflow.operators import BashOperator,S3KeySensor from datetime import datetime, timedelta import psycopg2 from datetime import date, timedelta...
8832 просмотров
schedule 11.09.2021

Airflow не будет записывать журналы в s3
Я пробовал разными способами настроить Airflow 1.9 для записи журналов в s3, но он просто игнорирует это. Я обнаружил, что у многих людей возникают проблемы с чтением журналов после этого, однако моя проблема в том, что журналы остаются локальными....
1825 просмотров
schedule 06.10.2021

Создание шаблона bucket_key в S3KeySensor в Apache Airflow
Версия воздушного потока: 1.9.0 В файле dag воздушного потока у меня есть задача PythonOperator с именем run_query , которая устанавливает следующую переменную xcom в своей функции python_callable:...
1447 просмотров
schedule 25.10.2021

Ошибка воздушного потока при настройке подключения к Билайн Улей
Я пытаюсь создать соединение через пользовательский интерфейс Airflow, но при попытке его сохранения получаю сообщение об ошибке пользовательского интерфейса: «Не удалось обновить запись. Неверное заполнение» Детали подключения: Идентификатор...
1197 просмотров
schedule 19.10.2021