Вопросы по теме 'google-cloud-dataflow'

Вставка в BigQuery через загрузочные задания (не потоковая передача)
Я хочу использовать Dataflow для загрузки данных в таблицы BigQuery с помощью заданий загрузки BQ - без потоковой передачи (в нашем случае потоковая передача будет стоить слишком дорого). Я вижу, что в SDK Dataflow встроена поддержка вставки данных...
2449 просмотров

Условные итерации в потоке данных Google Cloud
Я изучаю возможности реализации алгоритма анализа данных с помощью Google Cloud Dataflow. Имейте в виду, у меня еще нет опыта работы с потоками данных. Я просто изучаю, может ли он удовлетворить мои потребности. Часть моего алгоритма содержит...
431 просмотров
schedule 28.10.2021

Источник против PTransform
Я новичок в этом проекте и пытаюсь создать соединитель между потоком данных и базой данных. В документации четко указано, что я должен использовать Source и Sink, но я вижу, что многие люди напрямую используют PTransform, связанный с PInput или...
442 просмотров
schedule 04.11.2021

Запись вывода конвейера потока данных в секционированное место назначения
У нас есть единый источник потоковых событий с тысячами событий в секунду, все эти события отмечены идентификатором, определяющим, к какому из наших десятков тысяч клиентов принадлежит событие. Мы хотели бы использовать этот источник событий для...
1191 просмотров

Восстановление после сбоя Cloud Dataflow
Я хотел бы использовать Google Cloud Dataflow для создания окон сеансов, как описано в документе о модели потока данных . Я хочу отправить свои несвязанные данные в Pub / Sub, а затем прочитать их в Cloud Dataflow в потоковом режиме. Я хочу...
1033 просмотров
schedule 14.09.2021

Проверка статуса задания потока данных (асинхронный) с помощью Java SDK
Согласно документации Dataflow, существует 2 способа запустить конвейер Dataflow. / работа в облаке: Синхронный ( BlockingDataflowPipelineRunner ) Асинхронный ( DataflowPipelineRunner ) При использовании синхронного режима он, конечно,...
1079 просмотров
schedule 25.10.2021

Dataflow API не активируется в GCP
Я пытаюсь использовать API потока данных в своем проекте. На облачной панели управления я активировал все API, используя предписанную ссылку: https://console.cloud.google.com/flows/enableap apiid = dataflow, compute_component, logging,...
603 просмотров

Почему мой конвейер GCP Dataflow не может создавать виртуальные машины?
Я не вижу в сообщении об ошибке ничего, что указывало бы на то, почему он не может создать виртуальные машины. Приведенное ниже сообщение об ошибке было обнаружено в веб-консоли DataFlow на вкладке «Журналы». Я нигде не мог найти более подробной...
369 просмотров
schedule 20.09.2021

Доступ к атрибутам сообщений Cloud Pub / Sub в Cloud DataFlow
Согласно тому, что я читал о DataFlow, источник данных Pub ​​/ Sub предоставляет только тело сообщения для работы в конвейере. У нас есть вариант использования, когда мы хотим проверить атрибуты сообщения, чтобы принять определенные решения. Есть ли...
948 просмотров

Получение исключений нулевого указателя при передаче настраиваемых параметров конвейера в поток данных google
В документации потока данных Google можно легко создавать собственные параметры и регистрировать их в фабрике конвейеров или с ее помощью. Однако при попытке сделать это и инициализации объекта настраиваемых параметров я получаю исключение с...
344 просмотров
schedule 10.11.2021

Как использовать стандартный SQL BigQuery в потоке данных?
Я хотел бы выполнить простой запрос, используя стандартный SQL BigQuery в dataflow, но я не могу найти, где включить эту опцию. Как я могу это сделать? pipeline.apply(Read.named(metricName + " Read").fromQuery("select * from table1 UNION...
2105 просмотров

Отображение потока данных Данные отсутствуют в составном преобразовании
Я пробую новую версию отображение данных в Dataflow, чтобы дополнительные сведения отображались в пользовательском интерфейсе Google Cloud Dataflow. Однако отображаемые данные для пользовательских PTransform не отображаются. В моем конвейере...
253 просмотров

Google Dataflow не читает более 3 сжатых входных файлов одновременно при наличии нескольких источников
Справочная информация : в хранилище Google хранятся 30-дневные данные в 30 отдельных сжатых файлах. Мне нужно записать их в таблицу BigQuery в 30 разных разделах одной и той же таблицы. Размер каждого сжатого файла составлял около 750 МБ....
687 просмотров

Есть ли способ прочитать все файлы, исключая определенный список файлов в python apache beam?
Мой вариант использования заключается в том, что я обрабатываю файлы пакетной обработки в ведре, которое постоянно обновляется новыми файлами. Я не хочу обрабатывать CSV-файлы, которые уже были обработаны. Есть ли способ сделать это? Одно из...
870 просмотров

oauth2client.transport: Обновление из-за ошибки 401, что именно означает этот журнал?
Я настраиваю работу с потоком данных в облаке Google, и на ее выполнение требуется более 7 часов. Мой идентификатор вакансии: 2016-10-10_09_29_48-13166717443134662621. Никаких ошибок в конвейере не обнаружено. Просто продолжайте выходить из системы...
418 просмотров
schedule 13.09.2021

чтение паркета в Google DataFlow с помощью AvroParquetInputFormat
Попытка прочитать простой файл Parquet в моем конвейере Google DataFlow используя следующий код Read.Bounded<KV<Void, GenericData>> results = HadoopFileSource.readFrom("/home/avi/tmp/db_demo/simple.parquet",...
404 просмотров
schedule 23.11.2021

Задание Google Dataflow не удалось из-за ошибки недостаточно загруженных данных
Я пытаюсь создать задание потока данных, которое обрабатывает несколько тысяч файлов, и для каждого файла записывать в другое место назначения в GCS. Мне нужно сделать много TextIO в качестве источника и записать в пункт назначения как отдельный...
189 просмотров

Есть ли способ поделиться переменными с отслеживанием состояния в конвейере потока данных?
Я создаю конвейер потока данных с помощью python. Я хочу совместно использовать глобальные переменные в преобразовании конвейера и между рабочими узлами, такими как глобальные переменные (для нескольких рабочих). Есть ли способ поддержать это?...
2526 просмотров

Последовательное выполнение операций чтения - Apache Beam
Мне нужно выполнить следующие операции в указанной последовательности: - PCollection<String> read = p.apply("Read Lines",TextIO.read().from(options.getInputFile())) .apply("Get fileName",ParDo.of(new DoFn<String,String>(){...
455 просмотров
schedule 19.09.2021

Google Dataflow только частично распаковывает файлы, сжатые с помощью pbzip2
seq 1 1000000 > testfile bzip2 -kz9 testfile mv testfile.bz2 testfile-bzip2.bz2 pbzip2 -kzb9 testfile mv testfile.bz2 testfile-pbzip2.bz2 gsutil cp testfile gs://[bucket] gsutil cp testfile-bzip2.bz2 gs://[bucket] gsutil cp testfile-pbzip2.bz2...
94 просмотров