Публикации по теме 'data-engineering'


Столько всего для стрима!
Столько всего для стрима! Инструменты Apache для потоковой обработки данных в реальном времени Приготовьтесь погрузиться в захватывающий мир обработки данных в реальном времени! Apache предоставляет ряд мощных инструментов для потоковой передачи данных в режиме реального времени, включая Spark Streaming, Flink, Kafka, Storm и Samza. Каждый из этих инструментов предлагает уникальные преимущества и используется ведущими компаниями для решения некоторых из крупнейших…

Конвейеризация тестовых данных простым и увлекательным способом
Руководство для начинающих: Почему модульные и интеграционные тесты так важны для вашей платформы данных Эта история для тех, кто хотел бы научиться программировать и запускать тесты, автоматизировать проверки CI/CD и запускать их в любой среде, в том числе локально. Модульное тестирование  – это необходимый навык для инженеров по машинному обучению в наши дни. Это отлично смотрится в вашем резюме и увеличивает шансы на трудоустройство. Я Data Engineer, и очень часто мне нужно..

ETL против ELT: в чем разница?
Сравнение ETL и ELT в контексте Data Engineering ETL (извлечение-преобразование-загрузка) и ELT (извлечение-загрузка-преобразование) — это два термина, обычно используемые в области инженерии данных и, более конкретно, в контексте приема и преобразования данных. Хотя эти термины часто используются как взаимозаменяемые, они относятся к несколько разным концепциям и имеют разные последствия для проектирования конвейера данных. В этой статье мы уточним определения процессов ETL и ELT,..

Kedro — самая популярная библиотека для Data Science в 2022 году
Это фреймворк, который я очень рекомендую для инженерии данных и машинного обучения! Независимо от того, работаете ли вы в крупной организации или в стартапе, работаете ли вы в одиночку со своими собственными подработками или проектами, или вам нужна простая и масштабируемая среда машинного обучения для использования в повседневной работе, я хочу, чтобы вы перестаньте искать дальше и начните рассматривать Кедро . Очень рекомендую! Из документации: Kedro — это среда Python с..

Освоение времени: советы и приемы для имитации времени
Изучение локализации с помощью Typer, Freezegun, Libfaketime и машины времени Наши системы привязаны ко времени: когда произошло действие или событие, когда система узнала об этом и когда отреагировала на него. Таким образом, подделка времени является важной функцией, которую мы используем в нашей повседневной жизни в разработке программного обеспечения / данных. В этой статье мы рассмотрим три способа подделки времени, а также с помощью Typer — самого простого конструктора..

Развернуть модель машинного обучения легко с помощью MLFlow и AWS Sagemaker. Пошаговое руководство
Знать, как правильно настроить модель ML, — это здорово, но возникает вопрос, как позволить другим пользователям, внутри или за пределами компании, использовать ее. Именно тогда резина отправляется в путь, потому что только совместное использование вашей модели и ее использование на реальных данных создает реальную ценность для бизнеса. В то же время для развертывания требуется другой набор знаний, который стал важной областью науки о данных. Вопросы следующие: «С чего начать..

Решение HackerRank SQL для проблемы с рейтингом соревнований
Подход и решение проблемы с таблицей лидеров соревнований HackerRank с помощью SQL Если вы хотите улучшить свои навыки SQL или успешно пройти следующее техническое собеседование, все, что вам нужно сделать, это попрактиковаться. HackerRank (как и другие платформы) предлагает сотни таких задач, и в сегодняшней статье я собираюсь обсудить, как подходить и решать задачу в таблице лидеров конкурса. Проблема «Таблица лидеров соревнований» на HackerRank Теперь давайте перейдем..