Это новая серия блогов, предназначенная для разработчиков в инженерно-аналитической сфере, которые хотят накапливать и расширять свои знания в рамках внутренней работы Spark API (интерфейсов программирования приложений). Личная цель этой серии - обогатить мое текущее понимание Apache Spark, поделиться своими знаниями и ресурсами в легко усваиваемой форме для вас, читатель. Таким образом, независимо от того, на каком уровне вы в настоящее время понимаете распределенные вычисления, у вас будет контент и материалы, которые вы сможете использовать в своем путешествии с Apache Spark. Эта серия предназначена для специалистов по данным, инженеров по обработке данных и всех, кто плохо знаком со Spark. Надеюсь, даже если у вас есть какие-то знания, я могу помочь заполнить некоторые из этих слепых пятен!

В эти тяжелые времена (COVID-19) я буду стараться выпускать новый раздел каждые несколько дней. Это сделано для того, чтобы я мог продолжать развивать и расширять свои навыки и, надеюсь, ваши тоже. Я периодически использую Apache Spark около трех с половиной лет как в рабочей среде, так и в моих личных проектах.

Покрытие серии:

В этой серии статей будут рассмотрены практически все аспекты Apache Spark с использованием личных знаний, а также авторитетных ресурсов, написанных создателями Apache Spark. Области, которые будут рассмотрены достаточно глубоко, будут включать, но не ограничиваться:

Все о искре:

  • Что такое Apache Spark?
  • Архитектура Spark
  • Экосистема и языки Spark
  • Spark API

Подробная функциональность:

  • Apache Spark и Коалы
  • Типы данных Spark и переменные экосистемы
  • Искровая обработка пара

Аналитика и машинное обучение:

  • Обзор аналитики и машинного обучения с использованием Spark
  • Предварительная обработка и разработка функций в Spark
  • ML-моделирование в Spark
  • Графическая аналитика в Spark
  • Глубокое обучение в Spark
  • Apache Spark и mflow

Огромный объем моих знаний и опыта работы с Apache Spark я получил из книг и электронного обучения, предоставленного создателями Apache Spark. Не говоря уже об обучении старшим инструктором из Databricks. Две книги, которые я нашел бесценными в процессе обучения:

Еще одно ключевое место для оттачивания навыков использования Spark - это локально на вашем компьютере или с помощью облачного решения, такого как Azure или AWS. В качестве альтернативы одно бесплатное место для этого находится в версии сообщества Databricks, которую можно найти ниже:

Https://community.cloud.databricks.com/

Эта среда позволяет вам создавать свой собственный кластер Spark, создавать записные книжки, выгружать данные и пробовать все, что связано со Spark! Есть некоторые ограничения, но для бесплатного сервиса это просто фантастика! Версия для сообщества даже позволяет вам опробовать mlflow, один из проектов с открытым исходным кодом Databricks, выпущенный в 2019 году.

Скорее всего, в каждый из моих учебных разделов будут встроены фрагменты кода, которые вы сможете запустить в среде Spark, используя свои собственные наборы данных. Если у вас нет собственных наборов данных, их огромное количество доступно на веб-сайте Kaggle, все, что вам нужно сделать, это бесплатно зарегистрироваться, чтобы получить к ним доступ на всю жизнь.



Кроме того, в бесплатной версии сообщества Databricks есть несколько наборов данных, подключенных к среде при создании кластера. Вы можете запустить приведенный ниже код в записной книжке Databricks, чтобы получить список наборов данных.

%py
display(dbutils.fs.ls("/databricks-datasets"))

Вы также можете распечатать README.md файл для каждого из перечисленных наборов данных.

%py
with open("/dbfs/databricks-datasets/README.md") as f:
    x = ''.join(f.readlines())

print(x)

Я постараюсь включить любые предварительные требования к коду, если для запуска каких-либо примеров кода требуются какие-либо дополнительные функции или библиотеки.

Наконец-то:

Выпустить все эти разделы в быстрой последовательности будет непросто, но я сделаю все возможное для этого. Если у вас есть какие-либо вопросы или советы, пришлите их мне через LinkedIn:



Спасибо, что отправились со мной в это путешествие, берегитесь!

Разделы серии:

"Вступление"

  1. Что такое Apache Spark
  2. Искра Архитектура