Публикации по теме 'data-engineering'


Как создать задание потока данных с помощью Scio
Краткое введение в конвейер обработки больших данных Группа блестящих инженеров из Google во главе с Полом Нордстромом хочет создать систему, выполняющую потоковую обработку данных, которую MapReduce выполняла для пакетной обработки данных. Они хотели обеспечить надежную абстракцию и масштабирование до огромных размеров. Создание MillWheel было непростым делом. Тестирование и обеспечение правильности в потоковой системе было особенно сложной задачей, потому что ее нельзя было..

Искусство рассказывать истории на основе данных: как создавать убедительные рассказы с помощью Power BI
Я считаю, что умение рассказывать истории на основе данных – это важнейший навык для любого, кто работает с данными. "Данные — это новая нефть", — говорят они. И они не ошибаются. В современном мире, управляемом данными, организации постоянно собирают огромные объемы информации. Но какой прок во всех этих данных, если мы не можем их понять? Вот где начинается искусство рассказывания историй на основе данных. Введение: страсть к данным и рассказыванию историй Как аналитик..

10 главных ошибок Python из более чем 100 проектов (и как их избежать)
Привет! Я Гейб, мне 30 лет, я энтузиаст данных с более чем десятилетним опытом анализа и визуализации данных. Я увлечен обучением других мощи Python, машинного обучения и созданию эффективных информационных панелей. Присоединяйтесь ко мне сегодня, когда я провожу вас в личное путешествие по 10 основным ошибкам Python, с которыми я сталкивался в своей карьере, и как вы можете их избежать. Так что берите чашечку кофе, садитесь поудобнее и вперед! Раздел 1: Синтаксическая борьба..

Исправление ошибки: Ошибка выполнения не может найти профиль в dbt
Как предоставить профиль подключения при запуске команд dbt Инструмент построения данных (dbt) является одним из самых горячих (относительно) недавних дополнений к современным стекам данных. dbt предлагает как инструмент командной строки ( dbt-core ), так и облачный инструмент (dbt Cloud), который является платным сервисом, где вы можете размещать и запускать свои проекты dbt. При использовании интерфейса командной строки пользователи обычно жалуются на ошибку, информирующую их о..

Сетка данных в облаке Google — Набросок технической архитектуры
Как технически заставить сетку данных работать внутри Google Cloud и как вы можете перевести эти компоненты на других облачных провайдеров. Сетки данных — это сдвиг как в технологиях, так и в организации, процессах и людях. Я считаю, что технологическая сторона на самом деле менее важна. Однако, поскольку у нас еще нет надлежащего инструментария, по какой-то причине все еще довольно сложно создать хорошую техническую архитектуру для самой сетки данных. Поэтому представляется разумным..

Новичок в Data Engineering? Следуйте этим 17 правилам кодирования
Правило модульности: Пишите простые части, связанные чистыми интерфейсами. Правило ясности: Ясность лучше, чем ум. Правило композиции: создавайте программы, которые будут связаны с другими программами. Правило разделения: отделить политику от механизма; отдельные интерфейсы от двигателей. Правило простоты: дизайн для простоты; усложняйте только там, где это необходимо. Правило бережливости: пишите большую программу только тогда, когда из демонстрации становится ясно, что ничего..

A / B-тестирование: подход Python (часть 2)
Мы уже выполнили EDA для нашего набора данных, взятого из задачи Kaggle. Набор данных основан на игре под названием cookie cats. Чтобы разобраться в выбранных показателях, формулировке гипотез, размере выборки и коэффициенте удержания, пожалуйста, прочтите мою другую статью . T-тест Чтобы сравнить разницу между средними значениями двух разных групп, взятых из одной и той же совокупности, мы используем статистический инструмент, известный как t-критерий независимых выборок...