Пожалуйста, может кто-нибудь помочь? Я пытаюсь сделать именно это; Я не могу создать среду EMR с установкой Spark из конфигурации Data Pipeline из консоли AWS. Я выбираю «Запустить задание в кластере EMR», кластер EMR всегда создается с использованием Pig и Hive по умолчанию, а не Spark.
Я понимаю, что могу выбрать Spark в качестве действия начальной загрузки, как сказано здесь, но когда я это сделаю, я получаю это сообщение: Имя: xxx.xxxxxxx.processing.dp
Сборка с использованием шаблона: Выполнить задание в кластере Elastic MapReduce
Параметры: пара ключей EC2 (необязательно): xxx_xxxxxxx_emr_key Шаг (и) EMR:
spark-submit --deploy-mode cluster s3: //xxx.xxxxxxx.scripts.bucket/CSV2Parquet.py s3: //xxx.xxxxxxx .scripts.bucket /
Метка выпуска EMR: emr-4.3.0 Действие начальной загрузки (необязательно): s3: //support.elasticmapreduce/spark/install-spark,-v,1.4.0.b
Куда девается бит AMI? И выглядит ли вышеизложенное правильно ??
Вот ошибка, которую я получаю, когда активирую конвейер данных: Невозможно создать ресурс для @ EmrClusterObj_2017-01-13T09: 00: 07 из-за: Поставленных действий начальной загрузки: 'bootstrap-action.6255c495-578a-441a-9d05 -d03981fc460d 'не поддерживаются выпуском' emr-4.3.0 '. (Служба: AmazonElasticMapReduce; Код состояния: 400; Код ошибки: ValidationException; Идентификатор запроса: b1b81565-d96e-11e6-bbd2-33fb57aa2526)
Если я укажу более позднюю версию EMR, могу ли я установить Spark по умолчанию?
Большое спасибо за любую помощь здесь. С Уважением.