(Давний пользователь && Первый вопрос && Нервничает задать) Верно
В настоящее время я создаю серверную часть Python, которая будет развернута на одном экземпляре AWS EC2 со следующей архитектурой:
|---- Источники данных -----| Временное хранилище | - Обработка данных --- | ----- БД ---- |
Данные веб-краулера----*Сохранить на S3* =\
Данные API----------------- *Сохранить на S3* ==> Конвейер данных Lugi --> MongoDB
Как показано выше, у нас есть разные способы извлечения данных (например, запросы API, Scrapy Web Crawler и т. д.), но сложная/сложная часть заключается в том, чтобы найти простой и отказоустойчивый способ подключения полученных данных к Luigi. Конвейер данных.
Есть ли способ интегрировать вывод поискового робота в конвейер данных Luigi? Если нет, то как лучше всего преодолеть разрыв между сборщиками данных HTTP и задачами Luigi?
Любые советы, документы или статьи будут очень признательны! Кроме того, если вам нужны дополнительные подробности, я приведу их сюда как можно быстрее.
Благодарю вас!