Итак, я пытаюсь запустить приложение Apache Spark
на AWS EMR в режиме cluster
, используя spark-submit
. Если у меня есть только одна банка для предоставления в пути к классам, она отлично работает с данной опцией, используя опции --jar
и --driver-class-path
. Все мои необходимые файлы зависимостей находятся в S3
ведре, как того требует EMR. Для этой цели я использую приведенную ниже команду в опции добавления шага EMR на консоли EMR AWS:
--class org.springframework.boot.loader.JarLauncher --jars s3://emrb/gson-2.8.4.jar --driver-class-path s3://emrb/gson-2.8.4.jar
Теперь я предоставляю эту опцию в области spark-submit options
в файле add step
. Но если я хочу предоставить несколько зависимых банок, используя один и тот же способ, он не займет другие банки. Я предоставляю следующий способ и пробовал различные варианты, но не могу найти зависимые банки:
--jars s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar,s3://emrb/gson-2.8.4.jar --driver-class-path s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar,s3://emrb/gson-2.8.4.jar --class org.springframework.boot.loader.JarLauncher