Публикации по теме 'data-engineering'


Наконец-то выпущен Amazon Timestream - стоит ли это вашего времени?
Бессерверная база данных временных рядов AWS наконец доступна после двух лет предварительной версии - первый обзор основных функций Объем и популярность данных временных рядов экспоненциально растут. По сути, это набор числовых значений, присвоенных определенным временным меткам, и он используется для описания того, как вещи меняются с течением времени. Данные с устройств Интернета вещей, датчики, прогнозы погоды, поток кликов, данные финансового фондового рынка или даже измерения..

Как принимать и использовать данные из Azure Data Lake
Анализ моделей приема/потребления, включая PoC в дельте озера 1. Введение Многие компании рассматривают возможность создания Enterprise Data Lake. Идея состоит в том, чтобы хранить данные в централизованном хранилище. Основными заинтересованными сторонами озера данных являются следующие две организации: Производитель данных . Объект, который загружает данные в озеро данных. Как правило, это организация, которая не извлекает выгоду из озера данных напрямую и предпочитает простой..

Работа с эндогенным типом II
Почему мы должны знать о наших данных Работа с эндогенным типом II Примеры из литературы, посвященной эндогенности II типа С введением и рассмотрением более простой формы эндогенности ( Тип I ) в этой части исследуется более сложная проблема эндогенности посредством одновременности. Одновременность возникает, когда Y вызывает X, а X вызывает Y (богатый становится еще богаче). Проблема сложна, поскольку: 1. добавление инструментальных переменных (IV) может не помочь 2. это..

2 ключевых изменения, которые открыли огромный масштаб в нашем конвейере данных машинного обучения 🚀
В мире больших данных нам нужно больше историй об инженерии данных! Вот почему я хотел поделиться историей о том, как наша команда инженеров искусственного интеллекта увеличила пропускную способность ключевого производственного конвейера в 40 раз, а также об архитектурных изменениях, стоящих за этим. Надеюсь, вы сможете использовать эти идеи в качестве примера для создания собственных масштабируемых и надежных систем искусственного интеллекта. Прошло больше года с тех пор, как я..

Добавьте машинное обучение в свои рабочие процессы dbt с Continual
Сегодня мы рады объявить о непрерывной интеграции для dbt . Мы считаем, что это радикальное упрощение процесса машинного обучения (ML) для пользователей dbt и представляет собой четко определенный путь, который устраняет разрыв между аналитикой данных и наукой о данных. Читайте дальше, чтобы узнать больше об этой интеграции и о том, как начать работу. Что такое Непрерывный? Continual — это автоматизированная операционная платформа искусственного интеллекта , созданная для..

Наука о данных для всех
В этой статье я раскрою что, почему и как в науке о данных. К концу этой статьи вы будете лучше понимать, как данные используются вокруг вас и как вы можете использовать данные. Если мы погуглим «Что такое наука о данных?», мы увидим огромное количество запутанной информации. Но наука о данных на самом деле проста. Это набор методологий для сбора тысяч форм данных, доступных нам сегодня, и использования их для получения осмысленных выводов. Данные собираются вокруг нас. Каждый..

5 ошибок, которые допускают новые специалисты по обработке данных
Предупреждения для моего прошлого Когда дело доходит до передового опыта и согласования бизнеса, большинство новых инженеров по данным учатся на ходу. От создания чрезмерно сложных и неустойчивых систем до чрезмерного доверия к существующим структурам данных - вот пять наиболее распространенных ошибок и ловушек, в которые могут попасть даже самые опытные и талантливые инженеры-новички. Я также включил то, что вы можете сделать, чтобы избежать тех же ошибок. Распространенные ошибки,..