Публикации по теме 'data-engineering'


Как транслировать события с вашего веб-сайта Gatsby с помощью RudderStack с открытым исходным кодом
RudderStack  – это конвейер клиентских данных с открытым исходным кодом, который позволяет отслеживать и отправлять события в режиме реального времени из веб-, мобильных и серверных источников на все ваши стек данных о клиентах. Наш основной репозиторий — rudder-server — с открытым кодом на GitHub. С помощью плагина Gatsby от RudderStack с открытым исходным кодом вы можете легко интегрировать свой сайт Gatsby с RudderStack, а также отслеживать и фиксировать события..

Самый быстрый способ выучить панд - Практическое руководство - Часть 1
Усильте свой навык Pandas с помощью этого практического руководства Pandas - незаменимый пакет для инженеров по обработке данных, аналитиков данных и специалистов по обработке данных. Pandas - это простая в использовании библиотека пакетов Python для обработки и анализа данных. Если вы уже знакомы с SQL или даже с Ms Excel, вам не составит труда привыкнуть к функциям в пандах. Pandas имеет часто используемый формат данных, называемый DataFrame. Pandas DataFrame - это 2D-структура..

Власть - ничто без контроля
Не расставайтесь с Jupyter Notebooks. Просто используйте и Кедро! Эта статья подойдет всем, кого соблазнила простота работы с Jupyter Notebooks . Хотя он предназначен для читателей, которые относительно плохо знакомы с наукой о данных, он в равной степени применим и к более опытным специалистам по данным и инженерам, которые думают, как улучшить свой повседневный рабочий процесс. Удобство записной книжки Jupyter в сочетании с передовым опытом программного обеспечения Kedro Я..

Объединение модели и данных
Мысли о границе эффективности для анализа. Проблема эффективного объединения данных и математических моделей с реальными приложениями существует уже несколько десятилетий. Огромные достижения в вычислительной мощности и математическом моделировании имеют меньшую ценность при отсутствии решения. Я рассматриваю неспособность быстро сопоставить модели с правильными данными и приложениями как основное препятствие для области науки о данных. Недавний опрос дает болезненные доказательства..

Apache Spark - Серия из нескольких частей: Введение
Это новая серия блогов, предназначенная для разработчиков в инженерно-аналитической сфере, которые хотят накапливать и расширять свои знания в рамках внутренней работы Spark API (интерфейсов программирования приложений). Личная цель этой серии - обогатить мое текущее понимание Apache Spark, поделиться своими знаниями и ресурсами в легко усваиваемой форме для вас, читатель. Таким образом, независимо от того, на каком уровне вы в настоящее время понимаете распределенные вычисления, у вас..

Чего на самом деле ожидать от последней сертификации Google Cloud Platform Data Engineering…
Получение сертификата Google Cloud Platform Чего на самом деле ожидать от последней сертификации Google Cloud Platform Data Engineering… (… И как пройти его успешно, не испытывая такого стресса, как мы *) Если вы читаете это, вы, вероятно, думаете о регистрации для получения официального сертификата GCP Data Engineering , либо вы уже зарегистрированы и считаете дни до сдачи (удаленного или выездного) экзамена (whoop whoop 🎊, хороший ход уже!). Если ни то, ни другое не относится..

Лучший способ пройти сертификационный экзамен Google Cloud Professional Data Engineer (октябрь 2019 г.)
Итак, почему экзамен Сертифицированный специалист по данным Google Cloud Professional ? Облако - это место назначения для ваших проектов в области больших данных и машинного обучения. В условиях перехода к миру «прежде всего искусственный интеллект» облако позволяет как частным лицам, так и компаниям легко экспериментировать с решениями искусственного интеллекта. Если вы хотите развиваться как профессионал в области облачного / машинного обучения или просто хотите узнать больше о..