Cloudera Quick Start VM не имеет Spark 2.0 или более поздней версии

Для тестирования и изучения функций Spark разработчикам требуется последняя версия Spark. Поскольку API и методы, предшествующие версии 2.0, устарели и больше не работают в более новой версии. Это создает более сложную задачу, и разработчики вынуждены устанавливать Spark вручную, что тратит значительное количество времени на разработку.

Как использовать более позднюю версию Spark на виртуальной машине Quickstart?


person swapnil shashank    schedule 05.11.2018    source источник


Ответы (1)


Каждый не должен тратить время на настройку, которое я потратил впустую, так что вот решение.

Настройка установки SPARK 2.2 на Cloudera VM

Шаг 1: Скачайте quickstart_vm по ссылке:

Предпочитайте платформу vmware, так как она проста в использовании, в любом случае все варианты жизнеспособны.

Размер всего tar-файла составляет около 5,4 ГБ. Нам нужно указать идентификатор рабочей электронной почты, так как он не принимает личные идентификаторы электронной почты.

Шаг 2. Для виртуальной среды требуется около 8 ГБ ОЗУ. Выделите достаточно памяти, чтобы избежать сбоев в работе.

Шаг 3: Пожалуйста, откройте терминал и переключитесь на пользователя root как:

su root
 password: cloudera

Шаг 4: Cloudera предоставляет java версии 1.7.0_67, которая устарела и не соответствует нашим потребностям. Чтобы избежать исключений, связанных с java, установите java с помощью следующих команд:

Загрузка Java:

wget -c --header "Cookie: oraclelicense=accept-securebackup-cookie" http://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-linux-x64.tar.gz

Перейдите в каталог /usr/java/ с помощью команды «cd /usr/java/».

скопируйте tar-файл загрузки java в каталог /usr/java/.

Разархивируйте каталог с помощью «tar –zxvf jdk-8u31-linux-x64.tar.gz».

Откройте файл профиля командой «vi ~/.bash_profile».

экспортируйте JAVA_HOME в новый каталог java.

export JAVA_HOME=/usr/java/jdk1.8.0_131

Сохранить и выйти.

Чтобы отразить вышеуказанное изменение, в оболочке необходимо выполнить следующую команду:

source ~/.bash_profile

Виртуальная машина Cloudera по умолчанию предоставляет версию spark 1.6. Однако API версии 1.6 устарели и не подходят для производственных сред. В этом случае нам нужно загрузить и вручную установить Spark 2.2.

Перейдите в каталог /opt/ с помощью команды:

cd /opt/

Скачиваем искру командой:

wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz

Распакуйте искровую смолу с помощью следующей команды:

tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz

Нам нужно определить некоторые переменные среды как настройки по умолчанию:

Пожалуйста, откройте файл с помощью следующей команды:

vi /opt/spark-2.2.0-bin-hadoop2.7/conf/spark-env.sh

Вставьте в файл следующие конфигурации:

SPARK_MASTER_IP=192.168.50.1
SPARK_EXECUTOR_MEMORY=512m
SPARK_DRIVER_MEMORY=512m
SPARK_WORKER_MEMORY=512m
SPARK_DAEMON_MEMORY=512m

Сохранить и выйти

Нам нужно запустить искру с помощью следующей команды:

/opt/spark-2.2.0-bin-hadoop2.7/sbin/start-all.sh

Экспортировать spark_home :

export SPARK_HOME=/opt/spark-2.2.0-bin-hadoop2.7/

Измените права доступа к каталогу:

chmod 777 -R /tmp/hive

Попробуйте "spark-shell", должно сработать.

person swapnil shashank    schedule 05.11.2018
comment
В производственной среде вы, вероятно, сейчас будете использовать CDH 6 с последней версией Spark... Вам также даже не понадобится виртуальная машина Cloudera (или Hadoop/YARN) для запуска Spark, так что это здорово и все такое, но только кажется, что много усилий - person OneCricketeer; 05.11.2018
comment
Приятель, в моей производственной среде это 5.7, потому что версии финансовых учреждений не так легко изменить. - person swapnil shashank; 05.11.2018
comment
Ну, а Chef/Ansible/Puppet делают этот процесс гораздо менее ручным. - person OneCricketeer; 05.11.2018