Публикации по теме 'data-lake'


Dremio Data Lake Engine Apache Arrow Flight Connector с машинным обучением Spark
Джордж Джен, Jen Tek LLC В письме есть следующие компоненты: · Апачская стрела · Полет стрелы Апача · Дремио сервер · Полетный коннектор Dremio · Машинное обучение Apache Spark. Давайте перечислим все компоненты в письме: Стрелка Apache: Apache Arrow — это кросс-языковая платформа для разработки данных в памяти. Он определяет стандартизированный независимый от языка столбцовый формат памяти для плоских и иерархических данных, организованный для эффективных..

Google Data Fusion с Cloud Composer в качестве решения для сбора данных
Data Fusion - это облачное решение Google для построения конвейеров данных без какого-либо кода, хотя решение имеет некоторые ограничения (пока) при использовании вместе с Cloud Composer становится действительно мощным инструментом для создания озер данных. Давайте поговорим о проблемах с Data Fusion: Поэтому для меня самым большим ограничением, которое я обнаружил с Data Fusion, является то, что вы не можете передавать динамические параметры, единственный динамический параметр,..

Архитектура данных для огромного ежедневного объема данных
Недавно мы создали облачную платформу обмена данными для работы с большими объемами данных. Мы извлекали данные из различных источников, от API-интерфейсов до баз данных и плоских файлов. Ежедневный объем данных составлял около 10 ТБ, и мы хотели преобразовать и сделать эти данные доступными не только нашим командам AI и BI, но и разработчикам приложений. Поэтому после анализа затрат мы решили использовать AWS. Ключевые атрибуты Все данные в одном месте Разделение хранилища и..