Как настроить кластерную среду для приложений Spark на компьютерах с Windows?

Я разрабатывал в pyspark с автономным некластерным режимом искры. В эти дни я хотел бы больше узнать о кластерном режиме искры. Я поискал в Интернете и обнаружил, что мне может понадобиться диспетчер кластеров для запуска кластеров на разных машинах с использованием Apache Mesos или Spark Standalone. Но я не мог легко найти детали картины.

Как мне настроить с точки зрения проектирования системы, чтобы запускать искровые кластеры на нескольких машинах Windows (или нескольких Windows vms).


person Yohan Chung    schedule 08.06.2017    source источник
comment
Инструкции по документации довольно ясны ... Автономный режим работает нормально, и mesos все равно не работает поверх окон.   -  person OneCricketeer    schedule 08.06.2017
comment
Я удивлен, узнав, что Mesos не работает в Windows полностью. Агент Mesos может работать нормально, но это, конечно, не решение --› mesos.apache.org/ документация/последние/окна.   -  person Jacek Laskowski    schedule 08.06.2017


Ответы (1)


Возможно, вы захотите изучить (от самого простого) Spark Standalone, через Hadoop YARN до Apache Mesos или DC/OS. См. Обзор режима кластера.

Я бы рекомендовал сначала использовать Spark Standalone (как самый простой вариант для отправки приложений Spark). Spark Standalone включен в любую установку Spark и отлично работает в Windows. Проблема в том, что нет скриптов для запуска и остановки автономных Мастера и Рабочих (также называемых ведомыми) для ОС Windows. Вам просто нужно «закодировать» их самостоятельно.

Используйте следующее, чтобы запустить автономный Мастер в Windows:

// terminal 1
bin\spark-class org.apache.spark.deploy.master.Master

Обратите внимание, что после того, как вы запустите автономный мастер, вы не получите ввода, но не беспокойтесь и перейдите на http://localhost:8080/ для просмотра веб-интерфейса автономного кластера Spark.

В отдельном терминале запустите экземпляр автономного Worker.

// terminal 2
bin\spark-class org.apache.spark.deploy.worker.Worker spark://localhost:7077

С одним рабочим кластером Spark Standalone вы сможете отправлять приложения Spark следующим образом:

spark-submit --master spark://localhost:7077 ...

Прочитайте Автономный режим Spark в официальной документации Spark.


Как я только что узнал, Mesos не подходит, учитывая его системные требования:

Mesos работает на Linux (64-разрядная версия) и Mac OS X (64-разрядная версия).

Однако вы можете запустить любой из кластеров, используя виртуальные машины, используя VirtualBox или аналогичный. По крайней мере, в DC/OS есть dcos-vagrant, что должно упростить задачу:

dcos-vagrant Быстро выделяйте кластер DC/OS на локальном компьютере для разработки, тестирования или демонстрации.

Развертывание DC/OS Vagrant включает в себя создание локального кластера виртуальных машин VirtualBox с использованием базового образа dcos-vagrant-box и последующую установку DC/OS.

person Jacek Laskowski    schedule 08.06.2017