Публикации по теме 'data-engineering'
Столько всего для стрима!
Столько всего для стрима!
Инструменты Apache для потоковой обработки данных в реальном времени
Приготовьтесь погрузиться в захватывающий мир обработки данных в реальном времени!
Apache предоставляет ряд мощных инструментов для потоковой передачи данных в режиме реального времени, включая Spark Streaming, Flink, Kafka, Storm и Samza. Каждый из этих инструментов предлагает уникальные преимущества и используется ведущими компаниями для решения некоторых из крупнейших…
Конвейеризация тестовых данных простым и увлекательным способом
Руководство для начинающих: Почему модульные и интеграционные тесты так важны для вашей платформы данных
Эта история для тех, кто хотел бы научиться программировать и запускать тесты, автоматизировать проверки CI/CD и запускать их в любой среде, в том числе локально.
Модульное тестирование – это необходимый навык для инженеров по машинному обучению в наши дни. Это отлично смотрится в вашем резюме и увеличивает шансы на трудоустройство.
Я Data Engineer, и очень часто мне нужно..
ETL против ELT: в чем разница?
Сравнение ETL и ELT в контексте Data Engineering
ETL (извлечение-преобразование-загрузка) и ELT (извлечение-загрузка-преобразование) — это два термина, обычно используемые в области инженерии данных и, более конкретно, в контексте приема и преобразования данных.
Хотя эти термины часто используются как взаимозаменяемые, они относятся к несколько разным концепциям и имеют разные последствия для проектирования конвейера данных.
В этой статье мы уточним определения процессов ETL и ELT,..
Kedro — самая популярная библиотека для Data Science в 2022 году
Это фреймворк, который я очень рекомендую для инженерии данных и машинного обучения!
Независимо от того, работаете ли вы в крупной организации или в стартапе, работаете ли вы в одиночку со своими собственными подработками или проектами, или вам нужна простая и масштабируемая среда машинного обучения для использования в повседневной работе, я хочу, чтобы вы перестаньте искать дальше и начните рассматривать Кедро . Очень рекомендую!
Из документации: Kedro — это среда Python с..
Освоение времени: советы и приемы для имитации времени
Изучение локализации с помощью Typer, Freezegun, Libfaketime и машины времени
Наши системы привязаны ко времени: когда произошло действие или событие, когда система узнала об этом и когда отреагировала на него.
Таким образом, подделка времени является важной функцией, которую мы используем в нашей повседневной жизни в разработке программного обеспечения / данных. В этой статье мы рассмотрим три способа подделки времени, а также с помощью Typer — самого простого конструктора..
Развернуть модель машинного обучения легко с помощью MLFlow и AWS Sagemaker. Пошаговое руководство
Знать, как правильно настроить модель ML, — это здорово, но возникает вопрос, как позволить другим пользователям, внутри или за пределами компании, использовать ее. Именно тогда резина отправляется в путь, потому что только совместное использование вашей модели и ее использование на реальных данных создает реальную ценность для бизнеса.
В то же время для развертывания требуется другой набор знаний, который стал важной областью науки о данных. Вопросы следующие: «С чего начать..
Решение HackerRank SQL для проблемы с рейтингом соревнований
Подход и решение проблемы с таблицей лидеров соревнований HackerRank с помощью SQL
Если вы хотите улучшить свои навыки SQL или успешно пройти следующее техническое собеседование, все, что вам нужно сделать, это попрактиковаться. HackerRank (как и другие платформы) предлагает сотни таких задач, и в сегодняшней статье я собираюсь обсудить, как подходить и решать задачу в таблице лидеров конкурса.
Проблема «Таблица лидеров соревнований» на HackerRank
Теперь давайте перейдем..