Шаг добавления AWS EMR: как добавить несколько jar-файлов из s3 в параметрах --jars и --driver-class-path?

Итак, я пытаюсь запустить приложение Apache Spark на AWS EMR в режиме cluster, используя spark-submit. Если у меня есть только одна банка для предоставления в пути к классам, она отлично работает с данной опцией, используя опции --jar и --driver-class-path. Все мои необходимые файлы зависимостей находятся в S3 ведре, как того требует EMR. Для этой цели я использую приведенную ниже команду в опции добавления шага EMR на консоли EMR AWS:

--class org.springframework.boot.loader.JarLauncher --jars s3://emrb/gson-2.8.4.jar --driver-class-path s3://emrb/gson-2.8.4.jar

Теперь я предоставляю эту опцию в области spark-submit options в файле add step. Но если я хочу предоставить несколько зависимых банок, используя один и тот же способ, он не займет другие банки. Я предоставляю следующий способ и пробовал различные варианты, но не могу найти зависимые банки:

 --jars s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar,s3://emrb/gson-2.8.4.jar --driver-class-path s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar,s3://emrb/gson-2.8.4.jar --class org.springframework.boot.loader.JarLauncher

person CodeHunter    schedule 18.04.2019    source источник


Ответы (1)


Вы можете добавить файлы jar в spark-defaults. Если в списке банок несколько записей, используйте : в качестве разделителя.

вы должны использовать:

--драйвер-класс-путь s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar:s3://emrb/gson-2.8.4.jar

person Rahul    schedule 07.05.2019
comment
Ты это пробовал? Поскольку : здесь обычно является разделителем, который входит в путь к классам s3/, следовательно, он не может принимать несколько записей таким образом. - person CodeHunter; 07.05.2019