Публикации по теме 'dataflow'


Начало работы с машинным обучением в GCP - часть 1. Обеспечение доступности и доступности данных
Начало работы с машинным обучением в GCP - часть 1. Обеспечение доступности и доступности данных Последние несколько месяцев мы работали над улучшением анализа данных и инновациями. Мы достигли этого, скопировав данные из локальных систем на новую платформу данных на GCP. Простые в использовании и мощные инструменты платформы данных GCP доказали свою ценность при настройке полного конвейера данных; переход от пустого листа к настройке функционального машинного обучения (ML) оказался..

Вопросы по теме 'dataflow'

Поток данных Magento занимает слишком много времени для загрузки файла CSV
У меня есть большой файл CSV, содержащий данные инвентаризации для обновления (более 35 000 строк). Я создал метод, который расширяет Mage_Catalog_Model_Convert_Adapter_Productimport для обновления инвентаря. Затем я использовал расширенный профиль...
1113 просмотров
schedule 02.11.2021

Есть ли способ прочитать все файлы, исключая определенный список файлов в python apache beam?
Мой вариант использования заключается в том, что я обрабатываю файлы пакетной обработки в ведре, которое постоянно обновляется новыми файлами. Я не хочу обрабатывать CSV-файлы, которые уже были обработаны. Есть ли способ сделать это? Одно из...
870 просмотров

TPL Dataflow LinkTo TransformBlock очень медленный
У меня есть два блока TransformBlocks, которые расположены в виде цикла. Они связывают свои данные друг с другом. TransformBlock 1 - это блок ввода-вывода для чтения данных, который ограничен максимум 50 задачами. Он читает данные и некоторые...
743 просмотров

Apache Beam - среднее агрегирование для каждого ключа в коллекции PCollection
У меня есть коллекция PCollection, которая состоит из столбца идентификатора и семи столбцов значений. Для каждого идентификатора есть несколько строк. Я хотел бы вычислить среднее значение семи столбцов для каждого уникального идентификатора....
316 просмотров

Можно ли использовать Apache NiFi в качестве механизма потока данных для вычислений в базе данных MS SQL Server?
Можно ли использовать Apache NiFi в качестве механизма потока данных для вычислений в базе данных MS SQL Server? Другими словами, я хотел бы использовать Apache NiFi, как если бы я использовал Alteryx. Например, могу ли я последовательно...
655 просмотров
schedule 18.09.2021

Проблема с тестовой программой Verilog Dataflow, вызывающая разные ошибки на разных сайтах
Эта программа находится в Dataflow Verilog. Я пытаюсь сделать сумматор и вычитатель зависимыми от селектора. В настоящее время я получаю несколько ошибок, которые являются либо «синтаксической ошибкой при непрерывном назначении» для строки 10...
240 просмотров
schedule 22.10.2021

Поток данных фабрики данных Azure из json в SQL
У меня есть исходный файл JSON с иерархическими данными, который мне нужно погрузить в две таблицы SQL (реляционные). JSON, как показано ниже { "orders":[ { "orderid":"30933",...
155 просмотров
schedule 30.11.2021

Пропуск шага в конвейере лучей apache Python
Итак, я создаю конвейер Apache Beam и испытываю некоторые проблемы с пропуском остальных шагов в Python SDK. Вот упрощенный пример, с которым у меня проблемы: import apache_beam as beam import os os.environ['GOOGLE_APPLICATION_CREDENTIALS'] =...
236 просмотров

Apache Beam StatusRuntimeException в конвейере потока данных
Я работаю над конвейером потока данных, написанным на python2.7, с использованием apache_beam == 2.24.0. Работа конвейера заключается в том, чтобы получать сообщения pubsub из подписки с использованием ReadFromPubSub луча в пакетном режиме, выполнять...
45 просмотров

Передача метки времени в поток данных Azure Mapping
Я пытаюсь передать дату и время последнего изменения в поток данных в качестве параметра. Может ли кто-нибудь сказать мне, как правильно передать его в качестве параметра. Я пробовал несколько вещей, например. передача utcnow () из активности...
874 просмотров

Есть ли способ создать пустой файл после определенного конвейера в моем коде Python с использованием луча apache
ниже id мой код Python, где он запускает конвейер. from __future__ import absolute_import import apache_beam as beam import argparse import logging from apache_beam.options.pipeline_options import PipelineOptions from...
40 просмотров
schedule 22.02.2022

Как построить поток данных?
Я использую Visual Studio 2008, учебник по SSIS, описанный на: http://msdn.microsoft.com/en-us/library/ms167106.aspx Я выполнил все задачи, но получаю следующие ошибки: Ошибка 1 Ошибка проверки. Извлечение выборочных данных о валюте:...
2407 просмотров
schedule 27.03.2022

ZONE_RESOURCE_POOL_EXHAUSTED для DataFlow и DataPrep
Хорошо, команда ... Dataprep работает с BigQuery. Я не могу понять, почему у меня проблема ZONE_RESOURCE_POOL_EXHAUSTED в течение последних 5 часов. Накануне вечером все шло отлично, но сегодня у меня серьезные проблемы. Может ли кто-нибудь дать...
929 просмотров

Почему CustomOptions в Apache Beam не наследует свойства DataflowPipelineOptions по умолчанию?
Я новичок в Apache Beam и пытаюсь запустить образец программы чтения и записи с помощью DirectRunner и DataflowRunner. В моем случае использования есть несколько аргументов CLI, и для этого я создал один интерфейс CustomOptions.java, расширяющий...
594 просмотров

Можем ли мы запустить задание Dataflow (луч Apache), используя шаблон проекта B из проекта A в GCP
Я столкнулся с одной проблемой, и мне нужна помощь. Это связано с потоком данных GCP (Apache Beam). У меня есть шаблон потока данных, созданный в проекте B, и все работает, если я запускаю его с помощью электронной почты человека или учетной...
354 просмотров

Переполнение потока данных служб SSIS по датам
У меня есть источник данных FoxPro, а местом назначения является SQL Server 2008. На стороне FoxPro у меня есть столбец с типом данных Date . Это ширина 8, минимальное значение — 0001-01-01, а максимальное — 9999-12-31. На стороне SQL Server у...
3787 просмотров
schedule 14.04.2022

Как создать зависимость между задачами в Apache Beam Python
Я новичок в Apache Beam и изучаю версию потока данных Apache Beam для Python. Я хочу выполнять свои задачи потока данных в определенном порядке, но он выполняет все задачи в параллельном режиме. Как создать зависимость задачи в python apache beam?...
1193 просмотров

Недопустимый токен ParDo Work с отслеживанием состояния Apache Beam
У меня есть DoFn с отслеживанием состояния, который в основном объединяет поступающие элементы, и когда буфер достигает определенного размера, буфер очищается и элементы вставляются в BigQuery. Я заметил, что время от времени конвейер вызывает...
100 просмотров

Чтение данных из Google Cloud BigQuery
Я новичок в мире конвейеров и Google API DataFlow. Я хочу читать данные из BigQuery с помощью sqlQuery. Когда я читаю всю базу данных, она работает нормально. PipelineOptions options = PipelineOptionsFactory.create(); Pipeline p =...
2839 просмотров

Ожидание нескольких задач потока данных async gpars с тайм-аутом
Я изо всех сил пытаюсь достичь цели иметь несколько асинхронных задач с общим тайм-аутом. Хитрость в том, что мне нужно обработать все, что было получено в течение тайм-аута. Например, приведенный ниже код получает значение обеих задач, когда...
363 просмотров
schedule 11.05.2022