Публикации по теме 'data-engineering'
Почему PySpark — идеальный инструмент для обработки больших данных в формате файла последовательности
Изучение уникальных возможностей PySpark для чтения и записи файлов последовательностей
вступление
Формат файла последовательности Hadoop — это формат двоичного файла, используемый в Hadoop для хранения пар данных «ключ-значение». Это формат файла-контейнера, который обеспечивает эффективную сериализацию и десериализацию больших объемов данных. Этот формат особенно полезен для заданий MapReduce, поскольку он позволяет эффективно читать и записывать данные параллельно.
В PySpark..
Как продвинуться по карьерной лестнице в сфере данных
Когда дело доходит до продвижения по карьерной лестнице в качестве специалиста по работе с данными, очевидный вариант — стать действительно хорош в чем-то. Но это только один путь и, наверное, самый трудный.
Есть альтернатива:
В своей книге «Как потерпеть неудачу почти во всем и все же выиграть по-крупному» Скотт Адамс вводит понятие стека навыков. Идея состоит в том, что сочетание достаточно хороших навыков превосходит опыт в одном навыке.
Моя миссия и цель — помочь профессионалам в..
Поиск самого быстрого способа передвижения по Нью-Йорку с помощью Apache Airflow — Часть 2
Введение
В предыдущей статье я создал конвейер данных для автоматической загрузки и загрузки ежемесячных данных в Google Cloud Storage и Google BigQuery о поездках Citi Bike по Нью-Йорку. Теперь, когда у нас есть чистые данные, хранящиеся в BigQuery, мы можем сосредоточиться на их анализе, чтобы найти самые быстрые способы передвижения по Нью-Йорку, а также получить другие интересные сведения.
Я создам еще один конвейер данных, используя Apache Airflow, чтобы получать новые данные по..
6 шагов для входа в Data Engineering
Получите работу, не тратя целое состояние
Итак, вы решили перейти на должность инженера данных, но, просматривая Интернет, вы обнаруживаете бесконечные способы и методы работы в этой области. Похоже, вам нужно как минимум 5 курсов, 1 или 2 дорогих магистерских степени и быть в курсе 50 различных технологий, чтобы получить работу.
К счастью, все не так уж сложно и дорого. Как бывший инженер-эколог, который сменил карьеру, я могу сказать вам, что есть всего 6 шагов, которые вам нужно..
Углубленный взгляд на то, как работает dbt
Инструмент построения данных (dbt) — это преобразующий инструмент в современном стеке данных, который за последние несколько лет приобрел значительную популярность. Это делает SQL более удобным для сопровождения, многократного использования и мощным. dbt позволяет аналитикам данных и инженерам более эффективно преобразовывать данные в своих хранилищах, используя те же методы, которые разработчики программного обеспечения применяли к своему коду в течение многих лет.
В этой статье мы..
Оркестрация с помощью Apache Airflow — Руководство для начинающих по проектному обучению !!
В этом блоге собраны мои заметки об Airflow. Я решил написать его, чтобы объединить все свои знания в одном месте с хорошим практическим проектом. Я попытался ясно изложить все понятия/жаргон, чтобы сделать наше понимание воздушного потока ясным и точным. Однако, прежде чем прыгать и копаться в этом, есть два предварительных условия.
🔴 Питон
🔴 Извлечение-преобразование-загрузка ака ETL
И причина этих предпосылок очевидна: либо мы создаем отчет, либо проект машинного..
Всему можно научиться
Как Кристина Мах использует машинное обучение на благо общества
Выросшая в Швеции, Кристина Мах знала, что хочет изменить мир к лучшему. Надеясь найти свою нишу в политике, она начала свою карьеру в качестве советника Умеренной молодежной лиги , крупнейшей в стране (более 13 000 членов) политической молодежной лиги. Хотя она считала эту работу полезной, она также преуспела в математике и естественных науках в старшей школе и начала скучать по проблемам, которые предлагали эти..