Условные итерации в потоке данных Google Cloud

Я изучаю возможности реализации алгоритма анализа данных с помощью Google Cloud Dataflow. Имейте в виду, у меня еще нет опыта работы с потоками данных. Я просто изучаю, может ли он удовлетворить мои потребности.

Часть моего алгоритма содержит несколько условных итераций, то есть продолжается до тех пор, пока не будет выполнено какое-либо условие:

PCollection data  = ...
while(needsMoreWork(data)) {
  data = doAStep(data)
}

Я просмотрел документацию и, насколько я могу судить, могу выполнять «итерации» только в том случае, если я знаю точное количество итераций до запуска конвейера. В этом случае мой код построения конвейера может просто создать последовательный конвейер с фиксированным числом шагов.

Единственное «решение», которое я могу придумать, - это запускать каждую итерацию в отдельных конвейерах, сохранять промежуточные данные в некоторой базе данных, а затем решать в моей конструкции конвейера, запускать ли новый конвейер для следующей итерации. Это кажется крайне неэффективным решением!

Есть ли какие-нибудь хорошие способы выполнить такие дополнительные итерации в потоке данных в облаке Google?

Спасибо!

google-cloud-dataflow

Tobber 27.07.2015 источник

Ответы (1)

arrow_upward
4
arrow_downward

На данный момент оба упомянутых вами варианта разумны. Вы даже можете комбинировать два подхода. Создайте конвейер, который выполняет несколько итераций (становится бездействующим, если needsMoreWork ложно), а затем создайте основную программу Java, которая отправляет этот конвейер несколько раз, пока needsMoreWork не станет ложным.

Мы видели этот вариант использования несколько раз и надеемся решить его в будущем. Встроенная поддержка отслеживается в https://github.com/GoogleCloudPlatform/DataflowJavaSDK/issues/50.

Ben Chambers 27.07.2015

comment

Спасибо. Есть ли где-нибудь, где я могу следить за прогрессом в этом вопросе? Как трекер ошибок или что-то подобное? - Tobber; 27.07.2015

Вопросы по теме

eventReactive с 2 кнопками действий на 2 вкладках
Добавить результат в TestCaseSource
три столбца в одну дату
Как открыть URL-адрес в WebView через .js в создателе кокосов
Highchart GMT и смещение в один час
проблема с отключением дат в datepicker
Получить описание текущего шага, вызываемого из файла BDD
журнал данных ракетки - журнал данных с отрицанием?
Не удается проиндексировать массив int RavenDB
Как использовать команду Scaffold-DbContext в VS Code
Взрывающийся градиент тензорного потока
Итерация по столбцу фрейма данных pandas и оценка с помощью оператора if и передача значений столбца в пустой список/словарь
Заполнить таблицу данных; Неверный ответ JSON
Получить точное время для удаленного сервера
Сбор элементов в массиве JSON
Динамический компонент круговой диаграммы D3 в Angular
Данные о пользовательских событиях в Firebase Events
Laravel 5.2 - проблема с веб-сервисами
Как повернуть трехмерный график в Matplotlib вокруг любой оси
Представление класса базы данных Java SQL