AWS Data Pipeline настроил кластер EMR под управлением Spark

Пожалуйста, может кто-нибудь помочь? Я пытаюсь сделать именно это; Я не могу создать среду EMR с установкой Spark из конфигурации Data Pipeline из консоли AWS. Я выбираю «Запустить задание в кластере EMR», кластер EMR всегда создается с использованием Pig и Hive по умолчанию, а не Spark.

Я понимаю, что могу выбрать Spark в качестве действия начальной загрузки, как сказано здесь, но когда я это сделаю, я получаю это сообщение: Имя: xxx.xxxxxxx.processing.dp
Сборка с использованием шаблона: Выполнить задание в кластере Elastic MapReduce

Параметры: пара ключей EC2 (необязательно): xxx_xxxxxxx_emr_key Шаг (и) EMR:
spark-submit --deploy-mode cluster s3: //xxx.xxxxxxx.scripts.bucket/CSV2Parquet.py s3: //xxx.xxxxxxx .scripts.bucket /

Метка выпуска EMR: emr-4.3.0 Действие начальной загрузки (необязательно): s3: //support.elasticmapreduce/spark/install-spark,-v,1.4.0.b

Куда девается бит AMI? И выглядит ли вышеизложенное правильно ??

Вот ошибка, которую я получаю, когда активирую конвейер данных: Невозможно создать ресурс для @ EmrClusterObj_2017-01-13T09: 00: 07 из-за: Поставленных действий начальной загрузки: 'bootstrap-action.6255c495-578a-441a-9d05 -d03981fc460d 'не поддерживаются выпуском' emr-4.3.0 '. (Служба: AmazonElasticMapReduce; Код состояния: 400; Код ошибки: ValidationException; Идентификатор запроса: b1b81565-d96e-11e6-bbd2-33fb57aa2526)

Если я укажу более позднюю версию EMR, могу ли я установить Spark по умолчанию?

Большое спасибо за любую помощь здесь. С Уважением.


person MarkAUK123    schedule 13.01.2017    source источник


Ответы (1)


Это действие начальной загрузки install-spark доступно только для версий AMI 3.x. Если вы используете releaseLabel (emr-4.x или выше), устанавливаемые приложения указываются другим способом.

Я сам никогда не использовал Data Pipeline, но я вижу, что если при создании конвейера вы нажмете «Edit in Architect» внизу, вы можете затем щелкнуть узел EmrCluster и выбрать Applications из «Добавить дополнительное поле» ..." падать. Вот где вы можете добавить Spark.

person Jonathan Kelly    schedule 13.01.2017
comment
Большое спасибо за это, это решило начальную проблему; мой кластер теперь начинается со Spark. - person MarkAUK123; 16.01.2017
comment
Но теперь мой шаг Spark не выполняется правильно ... Я получаю сообщение об ошибке «Не удалось загрузить» при его запуске и «Поддерживаются только локальные файлы s3 +» ... какие-нибудь идеи здесь ?? - person MarkAUK123; 16.01.2017