Статьи по теме apache-beam

Публикации по теме 'apache-beam'

Понимание машинного обучения в производственной среде: предварительная обработка данных в масштабе с помощью Tensorflow Transform

Проблемы, которые вам нужно решить, и интуиция, стоящая за каждым предложенным решением. Предварительная обработка данных - один из немногих важных шагов, которые необходимо выполнить перед началом обучения ваших моделей. Простой подход, используемый обычно при создании прототипов, подвержен ошибкам и вносит много скрытых технических долгов . В этой технической статье предполагается, что вы уже знакомы с процессом обучения модели или тензорным потоком в целом. Вступление..

Вопросы по теме 'apache-beam'

Отображение потока данных Данные отсутствуют в составном преобразовании

Я пробую новую версию отображение данных в Dataflow, чтобы дополнительные сведения отображались в пользовательском интерфейсе Google Cloud Dataflow. Однако отображаемые данные для пользовательских PTransform не отображаются. В моем конвейере...

253 просмотров

apache-beam google-cloud-platform google-cloud-dataflow

13.10.2021

Есть ли способ прочитать все файлы, исключая определенный список файлов в python apache beam?

Мой вариант использования заключается в том, что я обрабатываю файлы пакетной обработки в ведре, которое постоянно обновляется новыми файлами. Я не хочу обрабатывать CSV-файлы, которые уже были обработаны. Есть ли способ сделать это? Одно из...

870 просмотров

python apache-beam google-cloud-dataflow dataflow

18.09.2021

Задание Google Dataflow не удалось из-за ошибки недостаточно загруженных данных

Я пытаюсь создать задание потока данных, которое обрабатывает несколько тысяч файлов, и для каждого файла записывать в другое место назначения в GCS. Мне нужно сделать много TextIO в качестве источника и записать в пункт назначения как отдельный...

189 просмотров

apache-beam google-cloud-platform google-cloud-dataflow

17.09.2021

Есть ли способ поделиться переменными с отслеживанием состояния в конвейере потока данных?

Я создаю конвейер потока данных с помощью python. Я хочу совместно использовать глобальные переменные в преобразовании конвейера и между рабочими узлами, такими как глобальные переменные (для нескольких рабочих). Есть ли способ поддержать это?...

2526 просмотров

apache-beam google-cloud-platform google-cloud-dataflow

07.09.2021

Последовательное выполнение операций чтения - Apache Beam

Мне нужно выполнить следующие операции в указанной последовательности: - PCollection<String> read = p.apply("Read Lines",TextIO.read().from(options.getInputFile())) .apply("Get fileName",ParDo.of(new DoFn<String,String>(){...

455 просмотров

apache-beam google-cloud-dataflow

19.09.2021

Google Dataflow только частично распаковывает файлы, сжатые с помощью pbzip2

seq 1 1000000 > testfile bzip2 -kz9 testfile mv testfile.bz2 testfile-bzip2.bz2 pbzip2 -kzb9 testfile mv testfile.bz2 testfile-pbzip2.bz2 gsutil cp testfile gs://[bucket] gsutil cp testfile-bzip2.bz2 gs://[bucket] gsutil cp testfile-pbzip2.bz2...

94 просмотров

apache-beam google-cloud-dataflow apache-beam-io bzip2

01.11.2021

Как сериализовать класс, созданный во время выполнения, в Apache Beam

У меня есть приложение apache-beam, которое запускает конвейер как локально с прямым бегуном, так и в облаке Google с помощью бегуна потока данных. Он работает локально, но не работает с обработчиком потока данных Google. Вот следы ошибок:...

1214 просмотров

apache-beam google-cloud-dataflow deserialization serialization byte-buddy

14.11.2021

Apache Beam GroupByKey никогда не срабатывает при использовании DirectRunner

Название в значительной степени подводит итог всему этому. Независимо от того, насколько короткой я установил ширину окна, GroupByKey никогда не срабатывает при выполнении задания в DirectRunner. При использовании DataflowRunner все работает...

676 просмотров

apache-beam

28.09.2021

java.lang.IllegalStateException: невозможно вернуть кодировщик по умолчанию в потоке данных 2.X

У меня простой конвейер в dataflow 2.1 sdk. Которая считывает данные из pubsub, а затем применяет к ним DoFn. PCollection<MyClass> e = streamData.apply("ToE", ParDo.of(new MyDoFNClass())); Ошибка ниже на этом конвейере:...

5884 просмотров

apache-beam java google-cloud-dataflow

07.10.2021

Первые результаты преобразования GroupByKey

Как я могу заставить GroupByKey вызывать ранние результаты, а не ждать прибытия всех данных (что в моем случае довольно долгое время). Я попытался разбить мою входную коллекцию PCollection на окна с помощью раннего триггера, но этого не произошло. т...

925 просмотров

apache-beam google-cloud-dataflow

15.11.2021

Использование start_bundle () в задании apache-beam не работает. Неразборчивое хранилище.Client ()

Я получаю эту ошибку pickle.PicklingError: Обработка клиентских объектов явно не поддерживается. У клиентов нетривиальное состояние, которое является локальным и недоступным для выбора. При попытке использовать beam.ParDo для вызова...

786 просмотров

apache-beam google-cloud-storage google-cloud-dataflow

13.09.2021

IllegalArgumentException - конвейер Apache BEAM - сдвиг отметки времени?

У меня есть существующий конвейер BEAM, который обрабатывает данные, полученные (из темы Google Pubsub) по 2 маршрутам. «Горячий» путь выполняет некоторые базовые преобразования и сохраняет их в Datastore, тогда как «холодный» путь выполняет...

794 просмотров

apache-beam google-cloud-dataflow fluentd

25.11.2021

Apache Beam - среднее агрегирование для каждого ключа в коллекции PCollection

У меня есть коллекция PCollection, которая состоит из столбца идентификатора и семи столбцов значений. Для каждого идентификатора есть несколько строк. Я хотел бы вычислить среднее значение семи столбцов для каждого уникального идентификатора....

316 просмотров

apache-beam google-cloud-dataflow dataflow

02.11.2021

Записывать результаты BigQuery в GCS в формате CSV с помощью Apache Beam

Я довольно новичок в работе над Apache Beam, где я пытаюсь написать конвейер для извлечения данных из Google BigQuery и записи данных в GCS в формате CSV с использованием Python. Используя beam.io.read(beam.io.BigQuerySource()) , я могу читать...

3768 просмотров

python apache-beam google-bigquery google-cloud-dataflow

09.11.2021

Ошибка при использовании WriteToBigquery в Python для конвейера потока данных. Объект Unicode не имеет атрибута 'items'

Мои образцы данных находятся в формате json и выглядят так: { "metadata": { "action": "insert", "type": "export", "version": 1, "timestamp": "2018-11-23T09:17:59.048-08:00" }, "data": { "attr1": 61, "day":...

2192 просмотров

python apache-beam json google-bigquery google-cloud-dataflow

26.11.2021

Как я могу запустить задание потока данных из Datalab в Python?

У меня проблемы с запуском задания Dataflow от Datalab. Что я мог бы сделать, так это минимальный пример работающего кода Python для этой ситуации, поскольку он, похоже, недоступен в документации Google Cloud Platform или Apache Beam. Мне было бы...

1044 просмотров

python apache-beam google-cloud-platform google-cloud-dataflow google-cloud-datalab

07.09.2021

Прочтите файл Avro и запишите его в таблицу BigQuery

Моя цель - прочитать данные файла avro из облачного хранилища и записать их в таблицу BigQuery с помощью Java. Было бы хорошо, если бы кто-нибудь предоставил фрагмент кода / идеи для чтения данных в формате avro и записи их в таблицу BigQuery с...

1797 просмотров

apache-beam google-cloud-storage google-bigquery google-cloud-dataflow

03.10.2021

Чтение многострочного JSON с использованием потока данных Apache Beam / Google Cloud

Я пытаюсь прочитать файл JSON (многострочный) в конвейере, но beam.io.ReadFromText(somefile.json читает по одной строке за раз. Я пытаюсь прочитать содержимое файла как JSON, чтобы применить map к каждой категории, чтобы загрузить...

522 просмотров

python apache-beam google-cloud-platform google-cloud-dataflow

25.09.2021

Проблема при запуске потока данных

Я получаю сообщение об ошибке ниже при выполнении задания потока данных. Я пытаюсь обновить существующую версию луча до 2.11.0, но во время выполнения получаю ошибку ниже. java.lang.IncompatibleClassChangeError: Класс...

815 просмотров

apache-beam google-cloud-dataflow

15.10.2021

Сохранение Apache Beam в BigQuery с использованием Scio и явным указанием TriggeringFrequency

Я использую Spotify Scio для создания конвейера потока данных scala, который запускается сообщением Pub/Sub . Он читает из нашего личного DB , а затем вставляет информацию в BigQuery . Проблема в: Мне нужно удалить предыдущие данные...

373 просмотров

apache-beam google-bigquery scala spotify-scio

19.09.2021