Вопросы по теме 'apache-beam-io'

Google Dataflow только частично распаковывает файлы, сжатые с помощью pbzip2
seq 1 1000000 > testfile bzip2 -kz9 testfile mv testfile.bz2 testfile-bzip2.bz2 pbzip2 -kzb9 testfile mv testfile.bz2 testfile-pbzip2.bz2 gsutil cp testfile gs://[bucket] gsutil cp testfile-bzip2.bz2 gs://[bucket] gsutil cp testfile-pbzip2.bz2...
94 просмотров

Потребители Apache Beam KafkaIO в группе потребителей читают одно и то же сообщение
Я использую KafkaIO в потоке данных для чтения сообщений из одной темы. Я использую следующий код. KafkaIO.<String, String>read() .withReadCommitted() .withBootstrapServers(endPoint)...
344 просмотров

Apache Beam регистрирует сообщения с неправильными тегами
Журналы ошибок не регистрируются в консоли GCP. Предупреждения журналы регистрируются как информация (поэтому я использовал их для записи информационных сообщений). Например., test = "hello debug world"...
108 просмотров

Какие разрешения GCP необходимы для PubsubIO
Какие разрешения GCP необходимы для чтения из подписки Cloud Pub / Sub с классом PubsubIO ? У меня был pubsub.subscriptions.consume , но этого, похоже, недостаточно.
45 просмотров

потоковая запись в gcs с использованием Apache Beam для каждого элемента
Текущий конвейер луча читает файлы как поток, используя FileIO.matchAll().continuously() . Это возвращает PCollection. Я хочу записать эти файлы с теми же именами в другое ведро gcs, т.е. каждый PCollection - это один файл metadata/readableFile...
1058 просмотров

Почему CustomOptions в Apache Beam не наследует свойства DataflowPipelineOptions по умолчанию?
Я новичок в Apache Beam и пытаюсь запустить образец программы чтения и записи с помощью DirectRunner и DataflowRunner. В моем случае использования есть несколько аргументов CLI, и для этого я создал один интерфейс CustomOptions.java, расширяющий...
594 просмотров

Исключение IOException Apache Beam в декодере
У меня есть простой конвейер, который читает из Kafka читателем KafkaIO и затем преобразуется в конвейер. В итоге записывает в GCP в формате avro. Поэтому, когда я запускаю конвейер в DataFlow, он работает отлично, но когда бегуном является...
768 просмотров
schedule 13.04.2022

Apache Beam ReadFromKafka с использованием Python работает во Flink, но опубликованные сообщения не проходят через
У меня в Minikube запущен локальный кластер. Моя работа с конвейером написана на Python и является основным потребителем Kafka. Мой пайплайн выглядит следующим образом: def run(): import apache_beam as beam options =...
106 просмотров

Как создать зависимость между задачами в Apache Beam Python
Я новичок в Apache Beam и изучаю версию потока данных Apache Beam для Python. Я хочу выполнять свои задачи потока данных в определенном порядке, но он выполняет все задачи в параллельном режиме. Как создать зависимость задачи в python apache beam?...
1193 просмотров

Потоковые конвейеры с приемниками BigQuery в Python
Я создаю конвейер потоковой передачи лучей apache, источником которого является Pubsub, а источником - BigQuery. Я получил сообщение об ошибке: «Сбой рабочего процесса. Причины: неизвестный код сообщения». Каким бы загадочным ни было это...
715 просмотров

Есть ли способ выполнить команду Redis GET со встроенным преобразованием ввода-вывода Redis Beam Apache?
В моем случае для Google Cloud Dataflow я использую Redis в качестве кеша во время конвейера, поскольку выполняемое преобразование зависит от некоторых кэшированных данных. Это означало бы выполнение команд Redis GET. В документации по официальному...
746 просмотров

Чтение из Hive через Apache Beam
Не могли бы вы подсказать, как читать из Hive через луч Apache и сохранять его в формате Row PCollection?
55 просмотров
schedule 31.05.2022

Доступ к файлу внутри конвейера потока данных
Я хочу загрузить определенные файлы из временного местоположения до запуска конвейера. Файлы .mmdb, которые должны быть прочитаны в функции ParDo. Файлы хранятся в Google Storage, но метод, использующий файлы .mmdb, требует, чтобы они были объект...
741 просмотров

Можно ли подключить Cloud Dataflow к Compute Engine в другом регионе?
У нас есть kafka, развернутая на вычислительном движке в регионе asia-southeast1, и нам нужно выполнить потоковую обработку на луче apache (поток облачных данных). Согласно моим исследованиям, единственный способ подключения - через сеть vpc. но, к...
46 просмотров

Объект модуля не имеет атрибута BigqueryV2 - Local Apache Beam
Я пытаюсь запустить конвейер локально (Sierra) с помощью Apache Beam, используя предоставленные лучом API-интерфейсы ввода-вывода для Google BigQuery. Я настроил свою среду с помощью Virtualenv, как было предложено Быстрый старт по Beam Python , и...
799 просмотров

Как читать большие файлы из HTTP-ответа в Apache Beam?
TextIO Apache Beam можно использовать для чтения файлов JSON в некоторых файловых системах, но как я могу создать коллекцию PCollection из большого JSON (InputStream), полученного в результате HTTP-ответа в Java SDK?
747 просмотров
schedule 01.08.2022

Разделение выходных таблиц BigQuery
Я прочитал как из документации, так и из этого ответа , что можно динамически определить назначение таблицы. Я использовал точно такой же подход, как показано ниже: PCollection<Foo> foos = ...; foos.apply(BigQueryIO.write().to(new...
348 просмотров

Как читать данные из Hive с помощью Apache Beam?
Как читать из Hive с помощью Apache Beam / как использовать Hive в качестве источника в Apache Beam?
1068 просмотров
schedule 27.04.2023

Есть ли способ прочитать многострочный CSV-файл в Apache Beam с помощью преобразования ReadFromText (Python)?
Есть ли способ прочитать многострочный CSV-файл с помощью преобразования ReadFromText в Python? У меня есть файл, содержащий одну строку. Я пытаюсь заставить Apache Beam читать ввод как одну строку, но не могу заставить ее работать. def...
2338 просмотров

запуск через фиксированные интервалы при потоковой передаче луча apache
Я использую луч apache для написания потоковых конвейеров. Одним из требований для моего варианта использования является то, что я хочу запускать каждые X минут относительно времени начала или окончания окна. как я могу этого добиться. Текущий...
1287 просмотров