кластер hadoop + любой способ отключить приложение Spark для запуска на определенных узлах данных

у нас есть кластер Hadoop (HDP 2.6.5 кластер с амбари, с 25 машинами узлов данных)

мы используем приложение потоковой передачи искр (spark 2.1 запускаем Hortonworks 2.6.x)

текущая ситуация такова, что приложения потоковой передачи искры работают на всех машинах узлов данных

но теперь мы хотим, чтобы приложение потоковой передачи искр запускалось только на первых 10 datanodes машинах

поэтому другие последние 15 datanodes машины будут ограничены, а приложение Spark будет работать только на первых 10 datanodes машинах

может ли этот сценарий быть реализован с помощью амбарных функций или другого подхода?

например, мы нашли - https://docs.cloudera.com/HDPDocuments/HDP2/HDP-2.3.2/bk_yarn_resource_mgt/content/configuring_node_labels.html,

а также

http://crazyadmins.com/configure-node-labels-on-yarn/ < / а>

но не уверен, может ли Node Labes нам помочь


person jessica    schedule 01.07.2020    source источник


Ответы (1)


@ Джессика Да, вы абсолютно на правильном пути. Ярлыки узлов пряжи и очереди пряжи - это то, как администраторы Ambari контролируют доступ на уровне команды к частям всего кластера пряжи. Вы можете начать очень просто с очередями, отличными от заданных по умолчанию, или получить очень подробные сведения о множестве очередей для разных команд. Ярлыки узлов переводят его на другой уровень, позволяя специально отображать очереди и команды на узлы.

Вот сообщение с синтаксисом искры для использования очереди пряжи:

Как выбрать очередь для задания Spark с помощью Spark -подать?

Я попытался найти версию 2.6 этих документов, но не смог .... они действительно перепутали документы с момента слияния ...

https://docs.cloudera.com/HDPDocuments/HDP2/HDP-2.3.2/bk_yarn_resource_mgt/content/ch_node_labels.html

https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.0/data-operating-system/content/configuring_node_labels.html

Фактические шаги, которые вам, возможно, придется предпринять, могут представлять собой комбинацию элементов из обоих. Типичный для меня опыт работы в Ambari HDP / HDF.

person steven-matison    schedule 01.07.2020
comment
- Поскольку я использую Spark 2.1, я обнаружил, что моя версия Spark поддерживает следующие параметры - spark.yarn.am.nodeLabelExpression для ограничения размещения узла AppMaster и spark.yarn.executor.nodeLabelExpression для размещения исполнителя. Вопрос в том, как установить эти параметры с какими значениями, и в моем случае я использую амбари, а когда устанавливать эти параметры? (+1 за ваш ответ) - person jessica; 01.07.2020
comment
Вы можете сначала поиграть с тестовым кластером, потому что вам нужно будет изменить и перезапустить множество сервисов, но вам нужно начать с конфигов очереди пряжи и меток узлов, для этого у Ambari есть UI View. Получите все отсортированное, затем начните играть с конфигурацией искры, чтобы использовать узлы, которые вы пометили для параметров, на которые вы ссылаетесь. Также, возможно, просто проверьте фактические задания искры с помощью команды --queue. Большинство разработчиков предпочитают управлять им на уровне приложения, например, они могут использовать одну очередь для тестирования разработчиков и другую очередь для масштабированного тестирования ... - person steven-matison; 01.07.2020