Я хочу использовать Dataflow для загрузки данных в таблицы BigQuery с помощью заданий загрузки BQ - без потоковой передачи (в нашем случае потоковая передача будет стоить слишком дорого). Я вижу, что в SDK Dataflow встроена поддержка вставки данных через потоковую передачу BQ, но я не смог найти в SDK Dataflow ничего, что поддерживает задания загрузки из коробки.
Некоторые вопросы:
1) Имеется ли в SDK Dataflow поддержка OOTB для вставок заданий загрузки BigQuery? Если нет, то планируется ли это?
2) Если мне нужно свернуть свою собственную, какие есть хорошие подходы?
Если мне нужно свернуть свой собственный, выполнение задания загрузки BQ с использованием Google Cloud Storage представляет собой многоэтапный процесс: запишите файл в GCS, отправьте задание загрузки через BQ API и (необязательно) проверьте статус, пока задание не будет завершено. (или не удалось). Я бы надеялся, что смогу использовать существующую функциональность TextIO.write () для записи в GCS, но я не уверен, как бы скомпоновать этот шаг с последующим вызовом BQ API для отправки задания загрузки (и, возможно, последующие вызовы для проверки состояния задания до его завершения).
Кроме того, я бы использовал поток данных в потоковом режиме с окнами в 60 секунд, поэтому я бы также хотел выполнять задание загрузки каждые 60 секунд.
Предложения?