Публикации по теме 'dataflow'
Начало работы с машинным обучением в GCP - часть 1. Обеспечение доступности и доступности данных
Начало работы с машинным обучением в GCP - часть 1. Обеспечение доступности и доступности данных
Последние несколько месяцев мы работали над улучшением анализа данных и инновациями. Мы достигли этого, скопировав данные из локальных систем на новую платформу данных на GCP.
Простые в использовании и мощные инструменты платформы данных GCP доказали свою ценность при настройке полного конвейера данных; переход от пустого листа к настройке функционального машинного обучения (ML) оказался..
Вопросы по теме 'dataflow'
Поток данных Magento занимает слишком много времени для загрузки файла CSV
У меня есть большой файл CSV, содержащий данные инвентаризации для обновления (более 35 000 строк). Я создал метод, который расширяет Mage_Catalog_Model_Convert_Adapter_Productimport для обновления инвентаря. Затем я использовал расширенный профиль...
1113 просмотров
schedule
02.11.2021
Есть ли способ прочитать все файлы, исключая определенный список файлов в python apache beam?
Мой вариант использования заключается в том, что я обрабатываю файлы пакетной обработки в ведре, которое постоянно обновляется новыми файлами. Я не хочу обрабатывать CSV-файлы, которые уже были обработаны.
Есть ли способ сделать это?
Одно из...
870 просмотров
schedule
18.09.2021
TPL Dataflow LinkTo TransformBlock очень медленный
У меня есть два блока TransformBlocks, которые расположены в виде цикла. Они связывают свои данные друг с другом. TransformBlock 1 - это блок ввода-вывода для чтения данных, который ограничен максимум 50 задачами. Он читает данные и некоторые...
743 просмотров
schedule
06.10.2021
Apache Beam - среднее агрегирование для каждого ключа в коллекции PCollection
У меня есть коллекция PCollection, которая состоит из столбца идентификатора и семи столбцов значений. Для каждого идентификатора есть несколько строк.
Я хотел бы вычислить среднее значение семи столбцов для каждого уникального идентификатора....
316 просмотров
schedule
02.11.2021
Можно ли использовать Apache NiFi в качестве механизма потока данных для вычислений в базе данных MS SQL Server?
Можно ли использовать Apache NiFi в качестве механизма потока данных для вычислений в базе данных MS SQL Server?
Другими словами, я хотел бы использовать Apache NiFi, как если бы я использовал Alteryx.
Например, могу ли я последовательно...
655 просмотров
schedule
18.09.2021
Проблема с тестовой программой Verilog Dataflow, вызывающая разные ошибки на разных сайтах
Эта программа находится в Dataflow Verilog. Я пытаюсь сделать сумматор и вычитатель зависимыми от селектора. В настоящее время я получаю несколько ошибок, которые являются либо «синтаксической ошибкой при непрерывном назначении» для строки 10...
240 просмотров
schedule
22.10.2021
Поток данных фабрики данных Azure из json в SQL
У меня есть исходный файл JSON с иерархическими данными, который мне нужно погрузить в две таблицы SQL (реляционные). JSON, как показано ниже
{
"orders":[
{
"orderid":"30933",...
155 просмотров
schedule
30.11.2021
Пропуск шага в конвейере лучей apache Python
Итак, я создаю конвейер Apache Beam и испытываю некоторые проблемы с пропуском остальных шагов в Python SDK. Вот упрощенный пример, с которым у меня проблемы:
import apache_beam as beam
import os
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] =...
236 просмотров
schedule
22.10.2021
Apache Beam StatusRuntimeException в конвейере потока данных
Я работаю над конвейером потока данных, написанным на python2.7, с использованием apache_beam == 2.24.0. Работа конвейера заключается в том, чтобы получать сообщения pubsub из подписки с использованием ReadFromPubSub луча в пакетном режиме, выполнять...
45 просмотров
schedule
09.10.2021
Передача метки времени в поток данных Azure Mapping
Я пытаюсь передать дату и время последнего изменения в поток данных в качестве параметра. Может ли кто-нибудь сказать мне, как правильно передать его в качестве параметра. Я пробовал несколько вещей, например. передача utcnow () из активности...
874 просмотров
schedule
24.02.2022
Есть ли способ создать пустой файл после определенного конвейера в моем коде Python с использованием луча apache
ниже id мой код Python, где он запускает конвейер.
from __future__ import absolute_import
import apache_beam as beam
import argparse
import logging
from apache_beam.options.pipeline_options import PipelineOptions
from...
40 просмотров
schedule
22.02.2022
Как построить поток данных?
Я использую Visual Studio 2008, учебник по SSIS, описанный на: http://msdn.microsoft.com/en-us/library/ms167106.aspx
Я выполнил все задачи, но получаю следующие ошибки:
Ошибка 1 Ошибка проверки. Извлечение выборочных данных о валюте:...
2407 просмотров
schedule
27.03.2022
ZONE_RESOURCE_POOL_EXHAUSTED для DataFlow и DataPrep
Хорошо, команда ... Dataprep работает с BigQuery. Я не могу понять, почему у меня проблема ZONE_RESOURCE_POOL_EXHAUSTED в течение последних 5 часов. Накануне вечером все шло отлично, но сегодня у меня серьезные проблемы.
Может ли кто-нибудь дать...
929 просмотров
schedule
06.04.2022
Почему CustomOptions в Apache Beam не наследует свойства DataflowPipelineOptions по умолчанию?
Я новичок в Apache Beam и пытаюсь запустить образец программы чтения и записи с помощью DirectRunner и DataflowRunner. В моем случае использования есть несколько аргументов CLI, и для этого я создал один интерфейс CustomOptions.java, расширяющий...
594 просмотров
schedule
03.04.2022
Можем ли мы запустить задание Dataflow (луч Apache), используя шаблон проекта B из проекта A в GCP
Я столкнулся с одной проблемой, и мне нужна помощь. Это связано с потоком данных GCP (Apache Beam).
У меня есть шаблон потока данных, созданный в проекте B, и все работает, если я запускаю его с помощью электронной почты человека или учетной...
354 просмотров
schedule
07.04.2022
Переполнение потока данных служб SSIS по датам
У меня есть источник данных FoxPro, а местом назначения является SQL Server 2008.
На стороне FoxPro у меня есть столбец с типом данных Date . Это ширина 8, минимальное значение — 0001-01-01, а максимальное — 9999-12-31. На стороне SQL Server у...
3787 просмотров
schedule
14.04.2022
Как создать зависимость между задачами в Apache Beam Python
Я новичок в Apache Beam и изучаю версию потока данных Apache Beam для Python. Я хочу выполнять свои задачи потока данных в определенном порядке, но он выполняет все задачи в параллельном режиме. Как создать зависимость задачи в python apache beam?...
1193 просмотров
schedule
22.04.2022
Недопустимый токен ParDo Work с отслеживанием состояния Apache Beam
У меня есть DoFn с отслеживанием состояния, который в основном объединяет поступающие элементы, и когда буфер достигает определенного размера, буфер очищается и элементы вставляются в BigQuery. Я заметил, что время от времени конвейер вызывает...
100 просмотров
schedule
27.04.2022
Чтение данных из Google Cloud BigQuery
Я новичок в мире конвейеров и Google API DataFlow.
Я хочу читать данные из BigQuery с помощью sqlQuery. Когда я читаю всю базу данных, она работает нормально.
PipelineOptions options = PipelineOptionsFactory.create();
Pipeline p =...
2839 просмотров
schedule
01.05.2022
Ожидание нескольких задач потока данных async gpars с тайм-аутом
Я изо всех сил пытаюсь достичь цели иметь несколько асинхронных задач с общим тайм-аутом. Хитрость в том, что мне нужно обработать все, что было получено в течение тайм-аута.
Например, приведенный ниже код получает значение обеих задач, когда...
363 просмотров
schedule
11.05.2022