Вопросы по теме 'spotify-scio'
Сохранение Apache Beam в BigQuery с использованием Scio и явным указанием TriggeringFrequency
Я использую Spotify Scio для создания конвейера потока данных scala, который запускается сообщением Pub/Sub . Он читает из нашего личного DB , а затем вставляет информацию в BigQuery .
Проблема в:
Мне нужно удалить предыдущие данные...
373 просмотров
schedule
19.09.2021
SCIO прочитал файл паркета с scio parquet, сгенерированный класс case не найден
У меня проблема.
Я создал проект SCIO (Apache Beam) через архетип sbt: sbt new spotify / scio.g8
Цель этого задания - прочитать паркетный файл из GS
Когда я использую ParquetIO, предоставляемый Apache Beam, непосредственно в SCIO, эта работа...
208 просмотров
schedule
24.12.2021
Как настроить метки в заданиях потока данных Google с помощью scio?
Я хочу настроить метки для заданий потока данных Google для целей распределения затрат. Вот пример рабочего кода Java:
private DataflowPipelineOptions options = PipelineOptionsFactory.fromArgs(args).as(DataflowPipelineOptionsImpl.class);...
1732 просмотров
schedule
13.09.2022
Почему в Scio вы предпочитаете агрегат, а не groupByKey?
От:
https://github.com/spotify/scio/wiki/Scio-data-guideline
«Предпочитайте преобразования объединения/агрегирования/уменьшения, а не groupByKey. Имейте в виду, что операция сокращения должна быть ассоциативной и коммутативной».
Почему, в...
1233 просмотров
schedule
02.10.2022
Scio JobTest, PubSubIO, pubsubSubscriptionWithAttributes, timestampAttribute и проблема с оконным режимом
Я создаю конвейер для резервного копирования данных из PubSub в GCS и хотел создать тест с использованием JobTest , и я изо всех сил пытаюсь заставить PubSubIO правильно получить время события.
PubSub читается с помощью...
327 просмотров
schedule
07.03.2023
Водяной знак PubSub не продвигается
Я написал задание Apache Beam с использованием Scio с целью создания идентификаторов сеансов для входящих записей данных, а затем каким-либо образом их обогащать, прежде чем выводить их в BigQuery. Вот код:
val measurements =...
508 просмотров
schedule
19.02.2023
Конвейер луча не производит никакого вывода после GroupByKey с оконным режимом, и я получил ошибку памяти
цель:
Я хочу загрузить данные потока, затем добавить ключ, а затем посчитать их по ключу.
проблема:
Пиплайн Apache Beam Dataflow получает ошибку памяти, когда я пытаюсь загрузить и сгруппировать по ключу данные большого размера с...
1765 просмотров
schedule
21.05.2023
Обновить строку BigTable в Apache Beam (Scio)
У меня есть следующий вариант использования:
Есть тема PubSub с данными, которые я хочу агрегировать с помощью Scio, а затем сохранить эти агрегаты в BigTable.
В моем конвейере есть агрегирование CountByKey . Я хотел бы иметь возможность...
474 просмотров
schedule
15.11.2023