Apache Spark - Серия из нескольких частей: Введение

Это новая серия блогов, предназначенная для разработчиков в инженерно-аналитической сфере, которые хотят накапливать и расширять свои знания в рамках внутренней работы Spark API (интерфейсов программирования приложений). Личная цель этой серии - обогатить мое текущее понимание Apache Spark, поделиться своими знаниями и ресурсами в легко усваиваемой форме для вас, читатель. Таким образом, независимо от того, на каком уровне вы в настоящее время понимаете распределенные вычисления, у вас будет контент и материалы, которые вы сможете использовать в своем путешествии с Apache Spark. Эта серия предназначена для специалистов по данным, инженеров по обработке данных и всех, кто плохо знаком со Spark. Надеюсь, даже если у вас есть какие-то знания, я могу помочь заполнить некоторые из этих слепых пятен!

В эти тяжелые времена (COVID-19) я буду стараться выпускать новый раздел каждые несколько дней. Это сделано для того, чтобы я мог продолжать развивать и расширять свои навыки и, надеюсь, ваши тоже. Я периодически использую Apache Spark около трех с половиной лет как в рабочей среде, так и в моих личных проектах.

Покрытие серии:

В этой серии статей будут рассмотрены практически все аспекты Apache Spark с использованием личных знаний, а также авторитетных ресурсов, написанных создателями Apache Spark. Области, которые будут рассмотрены достаточно глубоко, будут включать, но не ограничиваться:

Все о искре:

Что такое Apache Spark?
Архитектура Spark
Экосистема и языки Spark
Spark API

Подробная функциональность:

Apache Spark и Коалы
Типы данных Spark и переменные экосистемы
Искровая обработка пара

Аналитика и машинное обучение:

Обзор аналитики и машинного обучения с использованием Spark
Предварительная обработка и разработка функций в Spark
ML-моделирование в Spark
Графическая аналитика в Spark
Глубокое обучение в Spark
Apache Spark и mflow

Огромный объем моих знаний и опыта работы с Apache Spark я получил из книг и электронного обучения, предоставленного создателями Apache Spark. Не говоря уже об обучении старшим инструктором из Databricks. Две книги, которые я нашел бесценными в процессе обучения:

Еще одно ключевое место для оттачивания навыков использования Spark - это локально на вашем компьютере или с помощью облачного решения, такого как Azure или AWS. В качестве альтернативы одно бесплатное место для этого находится в версии сообщества Databricks, которую можно найти ниже:

Https://community.cloud.databricks.com/

Эта среда позволяет вам создавать свой собственный кластер Spark, создавать записные книжки, выгружать данные и пробовать все, что связано со Spark! Есть некоторые ограничения, но для бесплатного сервиса это просто фантастика! Версия для сообщества даже позволяет вам опробовать mlflow, один из проектов с открытым исходным кодом Databricks, выпущенный в 2019 году.

Скорее всего, в каждый из моих учебных разделов будут встроены фрагменты кода, которые вы сможете запустить в среде Spark, используя свои собственные наборы данных. Если у вас нет собственных наборов данных, их огромное количество доступно на веб-сайте Kaggle, все, что вам нужно сделать, это бесплатно зарегистрироваться, чтобы получить к ним доступ на всю жизнь.

Найдите открытые наборы данных и проекты машинного обучения | Kaggle
Загружайте открытые наборы данных по тысячам проектов + делитесь проектами на одной платформе. Изучите популярные темы, такие как правительство… www.kaggle.com

Кроме того, в бесплатной версии сообщества Databricks есть несколько наборов данных, подключенных к среде при создании кластера. Вы можете запустить приведенный ниже код в записной книжке Databricks, чтобы получить список наборов данных.

%py
display(dbutils.fs.ls("/databricks-datasets"))

Вы также можете распечатать README.md файл для каждого из перечисленных наборов данных.

%py
with open("/dbfs/databricks-datasets/README.md") as f:
    x = ''.join(f.readlines())

print(x)

Я постараюсь включить любые предварительные требования к коду, если для запуска каких-либо примеров кода требуются какие-либо дополнительные функции или библиотеки.

Наконец-то:

Выпустить все эти разделы в быстрой последовательности будет непросто, но я сделаю все возможное для этого. Если у вас есть какие-либо вопросы или советы, пришлите их мне через LinkedIn:

Люк Торп - старший научный сотрудник - BBC | LinkedIn
Я лучше всего умею посещать встречи и изучать новые навыки, инструменты и методики! Я опытный аналитик и… www.linkedin.com

Спасибо, что отправились со мной в это путешествие, берегитесь!

Разделы серии:

"Вступление"

Apache Spark - Серия из нескольких частей: Введение

Покрытие серии:

Наконец-то:

Разделы серии:

Вопросы по теме