Публикации по теме 'data-engineering'
Наконец-то выпущен Amazon Timestream - стоит ли это вашего времени?
Бессерверная база данных временных рядов AWS наконец доступна после двух лет предварительной версии - первый обзор основных функций
Объем и популярность данных временных рядов экспоненциально растут. По сути, это набор числовых значений, присвоенных определенным временным меткам, и он используется для описания того, как вещи меняются с течением времени. Данные с устройств Интернета вещей, датчики, прогнозы погоды, поток кликов, данные финансового фондового рынка или даже измерения..
Как принимать и использовать данные из Azure Data Lake
Анализ моделей приема/потребления, включая PoC в дельте озера
1. Введение
Многие компании рассматривают возможность создания Enterprise Data Lake. Идея состоит в том, чтобы хранить данные в централизованном хранилище. Основными заинтересованными сторонами озера данных являются следующие две организации:
Производитель данных . Объект, который загружает данные в озеро данных. Как правило, это организация, которая не извлекает выгоду из озера данных напрямую и предпочитает простой..
Работа с эндогенным типом II
Почему мы должны знать о наших данных
Работа с эндогенным типом II
Примеры из литературы, посвященной эндогенности II типа
С введением и рассмотрением более простой формы эндогенности ( Тип I ) в этой части исследуется более сложная проблема эндогенности посредством одновременности. Одновременность возникает, когда Y вызывает X, а X вызывает Y (богатый становится еще богаче).
Проблема сложна, поскольку: 1. добавление инструментальных переменных (IV) может не помочь 2. это..
2 ключевых изменения, которые открыли огромный масштаб в нашем конвейере данных машинного обучения 🚀
В мире больших данных нам нужно больше историй об инженерии данных! Вот почему я хотел поделиться историей о том, как наша команда инженеров искусственного интеллекта увеличила пропускную способность ключевого производственного конвейера в 40 раз, а также об архитектурных изменениях, стоящих за этим. Надеюсь, вы сможете использовать эти идеи в качестве примера для создания собственных масштабируемых и надежных систем искусственного интеллекта.
Прошло больше года с тех пор, как я..
Добавьте машинное обучение в свои рабочие процессы dbt с Continual
Сегодня мы рады объявить о непрерывной интеграции для dbt . Мы считаем, что это радикальное упрощение процесса машинного обучения (ML) для пользователей dbt и представляет собой четко определенный путь, который устраняет разрыв между аналитикой данных и наукой о данных. Читайте дальше, чтобы узнать больше об этой интеграции и о том, как начать работу.
Что такое Непрерывный?
Continual — это автоматизированная операционная платформа искусственного интеллекта , созданная для..
Наука о данных для всех
В этой статье я раскрою что, почему и как в науке о данных. К концу этой статьи вы будете лучше понимать, как данные используются вокруг вас и как вы можете использовать данные.
Если мы погуглим «Что такое наука о данных?», мы увидим огромное количество запутанной информации.
Но наука о данных на самом деле проста. Это набор методологий для сбора тысяч форм данных, доступных нам сегодня, и использования их для получения осмысленных выводов. Данные собираются вокруг нас. Каждый..
5 ошибок, которые допускают новые специалисты по обработке данных
Предупреждения для моего прошлого
Когда дело доходит до передового опыта и согласования бизнеса, большинство новых инженеров по данным учатся на ходу.
От создания чрезмерно сложных и неустойчивых систем до чрезмерного доверия к существующим структурам данных - вот пять наиболее распространенных ошибок и ловушек, в которые могут попасть даже самые опытные и талантливые инженеры-новички. Я также включил то, что вы можете сделать, чтобы избежать тех же ошибок.
Распространенные ошибки,..