Публикации по теме 'data-engineering'


Почему PySpark — идеальный инструмент для обработки больших данных в формате файла последовательности
Изучение уникальных возможностей PySpark для чтения и записи файлов последовательностей вступление Формат файла последовательности Hadoop — это формат двоичного файла, используемый в Hadoop для хранения пар данных «ключ-значение». Это формат файла-контейнера, который обеспечивает эффективную сериализацию и десериализацию больших объемов данных. Этот формат особенно полезен для заданий MapReduce, поскольку он позволяет эффективно читать и записывать данные параллельно. В PySpark..

Как продвинуться по карьерной лестнице в сфере данных
Когда дело доходит до продвижения по карьерной лестнице в качестве специалиста по работе с данными, очевидный вариант — стать действительно хорош в чем-то. Но это только один путь и, наверное, самый трудный. Есть альтернатива: В своей книге «Как потерпеть неудачу почти во всем и все же выиграть по-крупному» Скотт Адамс вводит понятие стека навыков. Идея состоит в том, что сочетание достаточно хороших навыков превосходит опыт в одном навыке. Моя миссия и цель — помочь профессионалам в..

Поиск самого быстрого способа передвижения по Нью-Йорку с помощью Apache Airflow — Часть 2
Введение В предыдущей статье я создал конвейер данных для автоматической загрузки и загрузки ежемесячных данных в Google Cloud Storage и Google BigQuery о поездках Citi Bike по Нью-Йорку. Теперь, когда у нас есть чистые данные, хранящиеся в BigQuery, мы можем сосредоточиться на их анализе, чтобы найти самые быстрые способы передвижения по Нью-Йорку, а также получить другие интересные сведения. Я создам еще один конвейер данных, используя Apache Airflow, чтобы получать новые данные по..

6 шагов для входа в Data Engineering
Получите работу, не тратя целое состояние Итак, вы решили перейти на должность инженера данных, но, просматривая Интернет, вы обнаруживаете бесконечные способы и методы работы в этой области. Похоже, вам нужно как минимум 5 курсов, 1 или 2 дорогих магистерских степени и быть в курсе 50 различных технологий, чтобы получить работу. К счастью, все не так уж сложно и дорого. Как бывший инженер-эколог, который сменил карьеру, я могу сказать вам, что есть всего 6 шагов, которые вам нужно..

Углубленный взгляд на то, как работает dbt
Инструмент построения данных (dbt) — это преобразующий инструмент в современном стеке данных, который за последние несколько лет приобрел значительную популярность. Это делает SQL более удобным для сопровождения, многократного использования и мощным. dbt позволяет аналитикам данных и инженерам более эффективно преобразовывать данные в своих хранилищах, используя те же методы, которые разработчики программного обеспечения применяли к своему коду в течение многих лет. В этой статье мы..

Оркестрация с помощью Apache Airflow — Руководство для начинающих по проектному обучению !!
В этом блоге собраны мои заметки об Airflow. Я решил написать его, чтобы объединить все свои знания в одном месте с хорошим практическим проектом. Я попытался ясно изложить все понятия/жаргон, чтобы сделать наше понимание воздушного потока ясным и точным. Однако, прежде чем прыгать и копаться в этом, есть два предварительных условия. 🔴 Питон 🔴 Извлечение-преобразование-загрузка ака ETL И причина этих предпосылок очевидна: либо мы создаем отчет, либо проект машинного..

Всему можно научиться
Как Кристина Мах использует машинное обучение на благо общества Выросшая в Швеции, Кристина Мах знала, что хочет изменить мир к лучшему. Надеясь найти свою нишу в политике, она начала свою карьеру в качестве советника Умеренной молодежной лиги , крупнейшей в стране (более 13 000 членов) политической молодежной лиги. Хотя она считала эту работу полезной, она также преуспела в математике и естественных науках в старшей школе и начала скучать по проблемам, которые предлагали эти..