Вскоре после того, как я присоединился к Databricks, я начал еженедельную публикацию в LinkedIn и Twitter с тегом #1DatabrickAWeek, чтобы каждую неделю публиковать 1 информацию, связанную с Databricks — компанию, ее продукты, проекты с открытым исходным кодом, события, сообщество. и т. д. (см., например, здесь и здесь).
Эта запись в блоге является ее продолжением (поскольку пост на этой неделе был длиннее обычного 😉)

На прошлой неделе #1DatabrickAWeek (LinkedIn, Twitter) я поделился кратким обзором проектов Databricks с открытым исходным кодом (вы можете увидеть список на нашем веб-сайте).
Как и обещал, пост этой недели все о происхождении Apache Spark.

Вероятно, хорошо известно, что Матей Захария изначально создал Spark в 2009 году, когда работал в AMPLab Калифорнийского университета в Беркли.
Проект был открыт в 2010 году и передан в дар Apache Software Foundation в 2013 году ( как указано на странице истории Apache Spark).

Фактически, во время своего основного доклада на Spark+AI Summit 2020 North America (в июне 2020 г.) Али Годси (генеральный директор и соучредитель Databricks) и Матей отпраздновали 10-летие Apache Spark (что означает, что Spark приближается к своему 12 лет).

Что может быть несколько менее известно, так это мотивация для создания Apache Spark.

Для чего был создан Apache Spark?

Несколько лет назад, через некоторое время после того, как я начал использовать Spark, я прочитал в Интернете, что он был первоначально разработан как проверка концепции, чтобы продемонстрировать, насколько легко и быстро можно разработать распределенную платформу поверх Apache Mesos (см. эту статью D2iQ от 2015 г.).

Подождите, я не это слышал! — можете подумать вы.
И вы правы! В том же лейтмотиве, упомянутом выше, Матей рассказывает о своих беседах с Лестером Макки (одним из его коллег), который в то время участвовал в конкурсе Netflix Prize.

Узнав, что нужно Лестеру для конкуренции (с точки зрения распределенных систем), Матей начал работать над Spark в августе 2009 года, чтобы такие люди, как Лестер, могли разрабатывать распределенные приложения машинного обучения.

Так что же это — Mesos POC или распределенный ML-движок?

Это отличный вопрос, и я обсуждал его со своим коллегой Амром Али вскоре после того, как присоединился к Databricks.

Ответ… барабанная дробь, пожалуйста… правильно и то, и другое 🙂

Как я слышал от самого Матея, в то время, когда происходили разговоры с Лестером, Матей работал над Mesos, и поэтому он решил попробовать написать новый фреймворк на Mesos, поддерживающий распределенные приложения машинного обучения.

Как мы все знаем, Матей вместе с другими членами, присоединившимися к «команде Spark», воплотил Apache Spark в жизнь и действительно изменил всю отрасль!

Матей стал соучредителем Databricks и является техническим директором компании, доцентом Стэнфордского университета и председателем PMC Apache Spark.

Эпилог

Итак, вот она — история Apache Spark!
Заходите и загляните на веб-сайт проекта, который в начале этого месяца претерпел очень приятные изменения 🙂

И последнее, но не менее важное — я хочу услышать от вас!
Ваши отзывы очень приветствуются, и я также приглашаю вас подключиться к Twitter и LinkedIn.
До встречи в следующий раз!

Особое спасибо! единственному и неповторимому Матею Захария!!!