Это новая серия блогов, предназначенная для разработчиков в инженерно-аналитической сфере, которые хотят накапливать и расширять свои знания в рамках внутренней работы Spark API (интерфейсов программирования приложений). Личная цель этой серии - обогатить мое текущее понимание Apache Spark, поделиться своими знаниями и ресурсами в легко усваиваемой форме для вас, читатель. Таким образом, независимо от того, на каком уровне вы в настоящее время понимаете распределенные вычисления, у вас будет контент и материалы, которые вы сможете использовать в своем путешествии с Apache Spark. Эта серия предназначена для специалистов по данным, инженеров по обработке данных и всех, кто плохо знаком со Spark. Надеюсь, даже если у вас есть какие-то знания, я могу помочь заполнить некоторые из этих слепых пятен!
В эти тяжелые времена (COVID-19) я буду стараться выпускать новый раздел каждые несколько дней. Это сделано для того, чтобы я мог продолжать развивать и расширять свои навыки и, надеюсь, ваши тоже. Я периодически использую Apache Spark около трех с половиной лет как в рабочей среде, так и в моих личных проектах.
Покрытие серии:
В этой серии статей будут рассмотрены практически все аспекты Apache Spark с использованием личных знаний, а также авторитетных ресурсов, написанных создателями Apache Spark. Области, которые будут рассмотрены достаточно глубоко, будут включать, но не ограничиваться:
Все о искре:
- Что такое Apache Spark?
- Архитектура Spark
- Экосистема и языки Spark
- Spark API
Подробная функциональность:
- Apache Spark и Коалы
- Типы данных Spark и переменные экосистемы
- Искровая обработка пара
Аналитика и машинное обучение:
- Обзор аналитики и машинного обучения с использованием Spark
- Предварительная обработка и разработка функций в Spark
- ML-моделирование в Spark
- Графическая аналитика в Spark
- Глубокое обучение в Spark
- Apache Spark и mflow
Огромный объем моих знаний и опыта работы с Apache Spark я получил из книг и электронного обучения, предоставленного создателями Apache Spark. Не говоря уже об обучении старшим инструктором из Databricks. Две книги, которые я нашел бесценными в процессе обучения:
- Spark, полное руководство - обработка больших данных стала проще
- Learning Spark - Освещение быстрой аналитики данных
Еще одно ключевое место для оттачивания навыков использования Spark - это локально на вашем компьютере или с помощью облачного решения, такого как Azure или AWS. В качестве альтернативы одно бесплатное место для этого находится в версии сообщества Databricks, которую можно найти ниже:
Https://community.cloud.databricks.com/
Эта среда позволяет вам создавать свой собственный кластер Spark, создавать записные книжки, выгружать данные и пробовать все, что связано со Spark! Есть некоторые ограничения, но для бесплатного сервиса это просто фантастика! Версия для сообщества даже позволяет вам опробовать mlflow, один из проектов с открытым исходным кодом Databricks, выпущенный в 2019 году.
Скорее всего, в каждый из моих учебных разделов будут встроены фрагменты кода, которые вы сможете запустить в среде Spark, используя свои собственные наборы данных. Если у вас нет собственных наборов данных, их огромное количество доступно на веб-сайте Kaggle, все, что вам нужно сделать, это бесплатно зарегистрироваться, чтобы получить к ним доступ на всю жизнь.
Кроме того, в бесплатной версии сообщества Databricks есть несколько наборов данных, подключенных к среде при создании кластера. Вы можете запустить приведенный ниже код в записной книжке Databricks, чтобы получить список наборов данных.
%py display(dbutils.fs.ls("/databricks-datasets"))
Вы также можете распечатать README.md
файл для каждого из перечисленных наборов данных.
%py with open("/dbfs/databricks-datasets/README.md") as f: x = ''.join(f.readlines()) print(x)
Я постараюсь включить любые предварительные требования к коду, если для запуска каких-либо примеров кода требуются какие-либо дополнительные функции или библиотеки.
Наконец-то:
Выпустить все эти разделы в быстрой последовательности будет непросто, но я сделаю все возможное для этого. Если у вас есть какие-либо вопросы или советы, пришлите их мне через LinkedIn:
Спасибо, что отправились со мной в это путешествие, берегитесь!
Разделы серии:
"Вступление"