Вопросы по теме 'spotify-scio'

Сохранение Apache Beam в BigQuery с использованием Scio и явным указанием TriggeringFrequency
Я использую Spotify Scio для создания конвейера потока данных scala, который запускается сообщением Pub/Sub . Он читает из нашего личного DB , а затем вставляет информацию в BigQuery . Проблема в: Мне нужно удалить предыдущие данные...
373 просмотров

SCIO прочитал файл паркета с scio parquet, сгенерированный класс case не найден
У меня проблема. Я создал проект SCIO (Apache Beam) через архетип sbt: sbt new spotify / scio.g8 Цель этого задания - прочитать паркетный файл из GS Когда я использую ParquetIO, предоставляемый Apache Beam, непосредственно в SCIO, эта работа...
208 просмотров
schedule 24.12.2021

Как настроить метки в заданиях потока данных Google с помощью scio?
Я хочу настроить метки для заданий потока данных Google для целей распределения затрат. Вот пример рабочего кода Java: private DataflowPipelineOptions options = PipelineOptionsFactory.fromArgs(args).as(DataflowPipelineOptionsImpl.class);...
1732 просмотров

Почему в Scio вы предпочитаете агрегат, а не groupByKey?
От: https://github.com/spotify/scio/wiki/Scio-data-guideline «Предпочитайте преобразования объединения/агрегирования/уменьшения, а не groupByKey. Имейте в виду, что операция сокращения должна быть ассоциативной и коммутативной». Почему, в...
1233 просмотров
schedule 02.10.2022

Scio JobTest, PubSubIO, pubsubSubscriptionWithAttributes, timestampAttribute и проблема с оконным режимом
Я создаю конвейер для резервного копирования данных из PubSub в GCS и хотел создать тест с использованием JobTest , и я изо всех сил пытаюсь заставить PubSubIO правильно получить время события. PubSub читается с помощью...
327 просмотров
schedule 07.03.2023

Водяной знак PubSub не продвигается
Я написал задание Apache Beam с использованием Scio с целью создания идентификаторов сеансов для входящих записей данных, а затем каким-либо образом их обогащать, прежде чем выводить их в BigQuery. Вот код: val measurements =...
508 просмотров

Конвейер луча не производит никакого вывода после GroupByKey с оконным режимом, и я получил ошибку памяти
цель: Я хочу загрузить данные потока, затем добавить ключ, а затем посчитать их по ключу. проблема: Пиплайн Apache Beam Dataflow получает ошибку памяти, когда я пытаюсь загрузить и сгруппировать по ключу данные большого размера с...
1765 просмотров

Обновить строку BigTable в Apache Beam (Scio)
У меня есть следующий вариант использования: Есть тема PubSub с данными, которые я хочу агрегировать с помощью Scio, а затем сохранить эти агрегаты в BigTable. В моем конвейере есть агрегирование CountByKey . Я хотел бы иметь возможность...
474 просмотров