Cloudera Quick Start VM не имеет Spark 2.0 или более поздней версии

Для тестирования и изучения функций Spark разработчикам требуется последняя версия Spark. Поскольку API и методы, предшествующие версии 2.0, устарели и больше не работают в более новой версии. Это создает более сложную задачу, и разработчики вынуждены устанавливать Spark вручную, что тратит значительное количество времени на разработку.

Как использовать более позднюю версию Spark на виртуальной машине Quickstart?

apache-spark cloudera cloudera-quickstart-vm

swapnil shashank 05.11.2018 источник

Ответы (1)

arrow_upward
1
arrow_downward

Каждый не должен тратить время на настройку, которое я потратил впустую, так что вот решение.

Настройка установки SPARK 2.2 на Cloudera VM

Шаг 1: Скачайте quickstart_vm по ссылке:

Предпочитайте платформу vmware, так как она проста в использовании, в любом случае все варианты жизнеспособны.

Размер всего tar-файла составляет около 5,4 ГБ. Нам нужно указать идентификатор рабочей электронной почты, так как он не принимает личные идентификаторы электронной почты.

Шаг 2. Для виртуальной среды требуется около 8 ГБ ОЗУ. Выделите достаточно памяти, чтобы избежать сбоев в работе.

Шаг 3: Пожалуйста, откройте терминал и переключитесь на пользователя root как:

su root
 password: cloudera

Шаг 4: Cloudera предоставляет java версии 1.7.0_67, которая устарела и не соответствует нашим потребностям. Чтобы избежать исключений, связанных с java, установите java с помощью следующих команд:

Загрузка Java:

wget -c --header "Cookie: oraclelicense=accept-securebackup-cookie" http://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-linux-x64.tar.gz

Перейдите в каталог /usr/java/ с помощью команды «cd /usr/java/».

скопируйте tar-файл загрузки java в каталог /usr/java/.

Разархивируйте каталог с помощью «tar –zxvf jdk-8u31-linux-x64.tar.gz».

Откройте файл профиля командой «vi ~/.bash_profile».

экспортируйте JAVA_HOME в новый каталог java.

export JAVA_HOME=/usr/java/jdk1.8.0_131

Сохранить и выйти.

Чтобы отразить вышеуказанное изменение, в оболочке необходимо выполнить следующую команду:

source ~/.bash_profile

Виртуальная машина Cloudera по умолчанию предоставляет версию spark 1.6. Однако API версии 1.6 устарели и не подходят для производственных сред. В этом случае нам нужно загрузить и вручную установить Spark 2.2.

Перейдите в каталог /opt/ с помощью команды:

cd /opt/

Скачиваем искру командой:

wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz

Распакуйте искровую смолу с помощью следующей команды:

tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz

Нам нужно определить некоторые переменные среды как настройки по умолчанию:

Пожалуйста, откройте файл с помощью следующей команды:

vi /opt/spark-2.2.0-bin-hadoop2.7/conf/spark-env.sh

Вставьте в файл следующие конфигурации:

SPARK_MASTER_IP=192.168.50.1
SPARK_EXECUTOR_MEMORY=512m
SPARK_DRIVER_MEMORY=512m
SPARK_WORKER_MEMORY=512m
SPARK_DAEMON_MEMORY=512m

Сохранить и выйти

Нам нужно запустить искру с помощью следующей команды:

/opt/spark-2.2.0-bin-hadoop2.7/sbin/start-all.sh

Экспортировать spark_home :

export SPARK_HOME=/opt/spark-2.2.0-bin-hadoop2.7/

Измените права доступа к каталогу:

chmod 777 -R /tmp/hive

Попробуйте "spark-shell", должно сработать.

swapnil shashank 05.11.2018

comment

В производственной среде вы, вероятно, сейчас будете использовать CDH 6 с последней версией Spark... Вам также даже не понадобится виртуальная машина Cloudera (или Hadoop/YARN) для запуска Spark, так что это здорово и все такое, но только кажется, что много усилий - OneCricketeer; 05.11.2018

comment

Приятель, в моей производственной среде это 5.7, потому что версии финансовых учреждений не так легко изменить. - swapnil shashank; 05.11.2018

comment

Ну, а Chef/Ansible/Puppet делают этот процесс гораздо менее ручным. - OneCricketeer; 05.11.2018

Cloudera Quick Start VM не имеет Spark 2.0 или более поздней версии

Ответы (1)

Загрузка Java:

Вопросы по теме