Вопросы по теме 'apache-beam-io'
Google Dataflow только частично распаковывает файлы, сжатые с помощью pbzip2
seq 1 1000000 > testfile
bzip2 -kz9 testfile
mv testfile.bz2 testfile-bzip2.bz2
pbzip2 -kzb9 testfile
mv testfile.bz2 testfile-pbzip2.bz2
gsutil cp testfile gs://[bucket]
gsutil cp testfile-bzip2.bz2 gs://[bucket]
gsutil cp testfile-pbzip2.bz2...
94 просмотров
schedule
01.11.2021
Потребители Apache Beam KafkaIO в группе потребителей читают одно и то же сообщение
Я использую KafkaIO в потоке данных для чтения сообщений из одной темы. Я использую следующий код.
KafkaIO.<String, String>read()
.withReadCommitted()
.withBootstrapServers(endPoint)...
344 просмотров
schedule
26.10.2021
Apache Beam регистрирует сообщения с неправильными тегами
Журналы ошибок не регистрируются в консоли GCP. Предупреждения журналы регистрируются как информация (поэтому я использовал их для записи информационных сообщений). Например.,
test = "hello debug world"...
108 просмотров
schedule
14.10.2021
Какие разрешения GCP необходимы для PubsubIO
Какие разрешения GCP необходимы для чтения из подписки Cloud Pub / Sub с классом PubsubIO ?
У меня был pubsub.subscriptions.consume , но этого, похоже, недостаточно.
45 просмотров
schedule
08.11.2021
потоковая запись в gcs с использованием Apache Beam для каждого элемента
Текущий конвейер луча читает файлы как поток, используя FileIO.matchAll().continuously() . Это возвращает PCollection. Я хочу записать эти файлы с теми же именами в другое ведро gcs, т.е. каждый PCollection - это один файл metadata/readableFile...
1058 просмотров
schedule
08.03.2022
Почему CustomOptions в Apache Beam не наследует свойства DataflowPipelineOptions по умолчанию?
Я новичок в Apache Beam и пытаюсь запустить образец программы чтения и записи с помощью DirectRunner и DataflowRunner. В моем случае использования есть несколько аргументов CLI, и для этого я создал один интерфейс CustomOptions.java, расширяющий...
594 просмотров
schedule
03.04.2022
Исключение IOException Apache Beam в декодере
У меня есть простой конвейер, который читает из Kafka читателем KafkaIO и затем преобразуется в конвейер. В итоге записывает в GCP в формате avro. Поэтому, когда я запускаю конвейер в DataFlow, он работает отлично, но когда бегуном является...
768 просмотров
schedule
13.04.2022
Apache Beam ReadFromKafka с использованием Python работает во Flink, но опубликованные сообщения не проходят через
У меня в Minikube запущен локальный кластер. Моя работа с конвейером написана на Python и является основным потребителем Kafka. Мой пайплайн выглядит следующим образом:
def run():
import apache_beam as beam
options =...
106 просмотров
schedule
19.04.2022
Как создать зависимость между задачами в Apache Beam Python
Я новичок в Apache Beam и изучаю версию потока данных Apache Beam для Python. Я хочу выполнять свои задачи потока данных в определенном порядке, но он выполняет все задачи в параллельном режиме. Как создать зависимость задачи в python apache beam?...
1193 просмотров
schedule
22.04.2022
Потоковые конвейеры с приемниками BigQuery в Python
Я создаю конвейер потоковой передачи лучей apache, источником которого является Pubsub, а источником - BigQuery. Я получил сообщение об ошибке:
«Сбой рабочего процесса. Причины: неизвестный код сообщения».
Каким бы загадочным ни было это...
715 просмотров
schedule
07.05.2022
Есть ли способ выполнить команду Redis GET со встроенным преобразованием ввода-вывода Redis Beam Apache?
В моем случае для Google Cloud Dataflow я использую Redis в качестве кеша во время конвейера, поскольку выполняемое преобразование зависит от некоторых кэшированных данных. Это означало бы выполнение команд Redis GET. В документации по официальному...
746 просмотров
schedule
06.05.2022
Чтение из Hive через Apache Beam
Не могли бы вы подсказать, как читать из Hive через луч Apache и сохранять его в формате Row PCollection?
55 просмотров
schedule
31.05.2022
Доступ к файлу внутри конвейера потока данных
Я хочу загрузить определенные файлы из временного местоположения до запуска конвейера. Файлы .mmdb, которые должны быть прочитаны в функции ParDo. Файлы хранятся в Google Storage, но метод, использующий файлы .mmdb, требует, чтобы они были объект...
741 просмотров
schedule
06.06.2022
Можно ли подключить Cloud Dataflow к Compute Engine в другом регионе?
У нас есть kafka, развернутая на вычислительном движке в регионе asia-southeast1, и нам нужно выполнить потоковую обработку на луче apache (поток облачных данных). Согласно моим исследованиям, единственный способ подключения - через сеть vpc. но, к...
46 просмотров
schedule
07.06.2022
Объект модуля не имеет атрибута BigqueryV2 - Local Apache Beam
Я пытаюсь запустить конвейер локально (Sierra) с помощью Apache Beam, используя предоставленные лучом API-интерфейсы ввода-вывода для Google BigQuery.
Я настроил свою среду с помощью Virtualenv, как было предложено Быстрый старт по Beam Python , и...
799 просмотров
schedule
03.07.2022
Как читать большие файлы из HTTP-ответа в Apache Beam?
TextIO Apache Beam можно использовать для чтения файлов JSON в некоторых файловых системах, но как я могу создать коллекцию PCollection из большого JSON (InputStream), полученного в результате HTTP-ответа в Java SDK?
747 просмотров
schedule
01.08.2022
Разделение выходных таблиц BigQuery
Я прочитал как из документации, так и из этого ответа , что можно динамически определить назначение таблицы. Я использовал точно такой же подход, как показано ниже:
PCollection<Foo> foos = ...;
foos.apply(BigQueryIO.write().to(new...
348 просмотров
schedule
02.10.2022
Как читать данные из Hive с помощью Apache Beam?
Как читать из Hive с помощью Apache Beam / как использовать Hive в качестве источника в Apache Beam?
1068 просмотров
schedule
27.04.2023
Есть ли способ прочитать многострочный CSV-файл в Apache Beam с помощью преобразования ReadFromText (Python)?
Есть ли способ прочитать многострочный CSV-файл с помощью преобразования ReadFromText в Python? У меня есть файл, содержащий одну строку. Я пытаюсь заставить Apache Beam читать ввод как одну строку, но не могу заставить ее работать.
def...
2338 просмотров
schedule
26.10.2022
запуск через фиксированные интервалы при потоковой передаче луча apache
Я использую луч apache для написания потоковых конвейеров. Одним из требований для моего варианта использования является то, что я хочу запускать каждые X минут относительно времени начала или окончания окна. как я могу этого добиться. Текущий...
1287 просмотров
schedule
11.04.2023