Публикации по теме 'apache-beam'


Понимание машинного обучения в производственной среде: предварительная обработка данных в масштабе с помощью Tensorflow Transform
Проблемы, которые вам нужно решить, и интуиция, стоящая за каждым предложенным решением. Предварительная обработка данных - один из немногих важных шагов, которые необходимо выполнить перед началом обучения ваших моделей. Простой подход, используемый обычно при создании прототипов, подвержен ошибкам и вносит много скрытых технических долгов . В этой технической статье предполагается, что вы уже знакомы с процессом обучения модели или тензорным потоком в целом. Вступление..

Вопросы по теме 'apache-beam'

Отображение потока данных Данные отсутствуют в составном преобразовании
Я пробую новую версию отображение данных в Dataflow, чтобы дополнительные сведения отображались в пользовательском интерфейсе Google Cloud Dataflow. Однако отображаемые данные для пользовательских PTransform не отображаются. В моем конвейере...
253 просмотров

Есть ли способ прочитать все файлы, исключая определенный список файлов в python apache beam?
Мой вариант использования заключается в том, что я обрабатываю файлы пакетной обработки в ведре, которое постоянно обновляется новыми файлами. Я не хочу обрабатывать CSV-файлы, которые уже были обработаны. Есть ли способ сделать это? Одно из...
870 просмотров

Задание Google Dataflow не удалось из-за ошибки недостаточно загруженных данных
Я пытаюсь создать задание потока данных, которое обрабатывает несколько тысяч файлов, и для каждого файла записывать в другое место назначения в GCS. Мне нужно сделать много TextIO в качестве источника и записать в пункт назначения как отдельный...
189 просмотров

Есть ли способ поделиться переменными с отслеживанием состояния в конвейере потока данных?
Я создаю конвейер потока данных с помощью python. Я хочу совместно использовать глобальные переменные в преобразовании конвейера и между рабочими узлами, такими как глобальные переменные (для нескольких рабочих). Есть ли способ поддержать это?...
2526 просмотров

Последовательное выполнение операций чтения - Apache Beam
Мне нужно выполнить следующие операции в указанной последовательности: - PCollection<String> read = p.apply("Read Lines",TextIO.read().from(options.getInputFile())) .apply("Get fileName",ParDo.of(new DoFn<String,String>(){...
455 просмотров
schedule 19.09.2021

Google Dataflow только частично распаковывает файлы, сжатые с помощью pbzip2
seq 1 1000000 > testfile bzip2 -kz9 testfile mv testfile.bz2 testfile-bzip2.bz2 pbzip2 -kzb9 testfile mv testfile.bz2 testfile-pbzip2.bz2 gsutil cp testfile gs://[bucket] gsutil cp testfile-bzip2.bz2 gs://[bucket] gsutil cp testfile-pbzip2.bz2...
94 просмотров

Как сериализовать класс, созданный во время выполнения, в Apache Beam
У меня есть приложение apache-beam, которое запускает конвейер как локально с прямым бегуном, так и в облаке Google с помощью бегуна потока данных. Он работает локально, но не работает с обработчиком потока данных Google. Вот следы ошибок:...
1214 просмотров

Apache Beam GroupByKey никогда не срабатывает при использовании DirectRunner
Название в значительной степени подводит итог всему этому. Независимо от того, насколько короткой я установил ширину окна, GroupByKey никогда не срабатывает при выполнении задания в DirectRunner. При использовании DataflowRunner все работает...
676 просмотров
schedule 28.09.2021

java.lang.IllegalStateException: невозможно вернуть кодировщик по умолчанию в потоке данных 2.X
У меня простой конвейер в dataflow 2.1 sdk. Которая считывает данные из pubsub, а затем применяет к ним DoFn. PCollection<MyClass> e = streamData.apply("ToE", ParDo.of(new MyDoFNClass())); Ошибка ниже на этом конвейере:...
5884 просмотров
schedule 07.10.2021

Первые результаты преобразования GroupByKey
Как я могу заставить GroupByKey вызывать ранние результаты, а не ждать прибытия всех данных (что в моем случае довольно долгое время). Я попытался разбить мою входную коллекцию PCollection на окна с помощью раннего триггера, но этого не произошло. т...
925 просмотров
schedule 15.11.2021

Использование start_bundle () в задании apache-beam не работает. Неразборчивое хранилище.Client ()
Я получаю эту ошибку pickle.PicklingError: Обработка клиентских объектов явно не поддерживается. У клиентов нетривиальное состояние, которое является локальным и недоступным для выбора. При попытке использовать beam.ParDo для вызова...
786 просмотров

IllegalArgumentException - конвейер Apache BEAM - сдвиг отметки времени?
У меня есть существующий конвейер BEAM, который обрабатывает данные, полученные (из темы Google Pubsub) по 2 маршрутам. «Горячий» путь выполняет некоторые базовые преобразования и сохраняет их в Datastore, тогда как «холодный» путь выполняет...
794 просмотров

Apache Beam - среднее агрегирование для каждого ключа в коллекции PCollection
У меня есть коллекция PCollection, которая состоит из столбца идентификатора и семи столбцов значений. Для каждого идентификатора есть несколько строк. Я хотел бы вычислить среднее значение семи столбцов для каждого уникального идентификатора....
316 просмотров

Записывать результаты BigQuery в GCS в формате CSV с помощью Apache Beam
Я довольно новичок в работе над Apache Beam, где я пытаюсь написать конвейер для извлечения данных из Google BigQuery и записи данных в GCS в формате CSV с использованием Python. Используя beam.io.read(beam.io.BigQuerySource()) , я могу читать...
3768 просмотров

Ошибка при использовании WriteToBigquery в Python для конвейера потока данных. Объект Unicode не имеет атрибута 'items'
Мои образцы данных находятся в формате json и выглядят так: { "metadata": { "action": "insert", "type": "export", "version": 1, "timestamp": "2018-11-23T09:17:59.048-08:00" }, "data": { "attr1": 61, "day":...
2192 просмотров

Как я могу запустить задание потока данных из Datalab в Python?
У меня проблемы с запуском задания Dataflow от Datalab. Что я мог бы сделать, так это минимальный пример работающего кода Python для этой ситуации, поскольку он, похоже, недоступен в документации Google Cloud Platform или Apache Beam. Мне было бы...
1044 просмотров

Прочтите файл Avro и запишите его в таблицу BigQuery
Моя цель - прочитать данные файла avro из облачного хранилища и записать их в таблицу BigQuery с помощью Java. Было бы хорошо, если бы кто-нибудь предоставил фрагмент кода / идеи для чтения данных в формате avro и записи их в таблицу BigQuery с...
1797 просмотров

Чтение многострочного JSON с использованием потока данных Apache Beam / Google Cloud
Я пытаюсь прочитать файл JSON (многострочный) в конвейере, но beam.io.ReadFromText(somefile.json читает по одной строке за раз. Я пытаюсь прочитать содержимое файла как JSON, чтобы применить map к каждой категории, чтобы загрузить...
522 просмотров

Проблема при запуске потока данных
Я получаю сообщение об ошибке ниже при выполнении задания потока данных. Я пытаюсь обновить существующую версию луча до 2.11.0, но во время выполнения получаю ошибку ниже. java.lang.IncompatibleClassChangeError: Класс...
815 просмотров
schedule 15.10.2021

Сохранение Apache Beam в BigQuery с использованием Scio и явным указанием TriggeringFrequency
Я использую Spotify Scio для создания конвейера потока данных scala, который запускается сообщением Pub/Sub . Он читает из нашего личного DB , а затем вставляет информацию в BigQuery . Проблема в: Мне нужно удалить предыдущие данные...
373 просмотров