Вопросы по теме 'spark-submit'

Внешняя библиотека jars с spark-submit
У меня есть приложение Scala, которое использует внешнюю библиотеку jar. Как я могу его использовать, если jar приложения был скопирован на hdfs? Из локального я начал с --conf spark.driver.extraClassPath=./lib/* , но если я использую ссылку hdfs,...
396 просмотров
schedule 10.09.2021

Скопируйте файлы (конфигурацию) из HDFS в локальный рабочий каталог каждого исполнителя Spark
Я ищу, как скопировать папку с файлами зависимостей ресурсов из HDFS в локальный рабочий каталог каждого исполнителя искры с помощью Java. Сначала я думал об использовании опции --files FILES для spark-submit, но, похоже, она не поддерживает папки...
1397 просмотров
schedule 07.09.2021

Шаг добавления AWS EMR: как добавить несколько jar-файлов из s3 в параметрах --jars и --driver-class-path?
Итак, я пытаюсь запустить приложение Apache Spark на AWS EMR в режиме cluster , используя spark-submit . Если у меня есть только одна банка для предоставления в пути к классам, она отлично работает с данной опцией, используя опции --jar и...
1201 просмотров

Amazon AWS не может получить доступ к моему URL-адресу s3n
Я пытаюсь выполнить команду spark-submit с моим файлом Python, и в этом файле Python я хотел бы получить доступ к моему файлу data.txt, который хранится в моей корзине. Я использую следующую команду для доступа к моему файлу, но я продолжаю получать...
154 просмотров
schedule 30.04.2022

Путь к банкам добавлен в задание Spark - spark-submit
Я использую Spark 2.1 (BTW) в кластере YARN. Я пытаюсь загрузить JAR в кластер YARN и использовать их для замены на месте (всегда на месте) Spark JAR. Я пытаюсь сделать это через искру-отправку. Вопрос Добавить банки в задание Spark -...
37 просмотров
schedule 05.05.2022

Spark-submit создает только 1 исполнителя, когда интерактивная оболочка pyspark создает 4 (оба с использованием yarn-client)
Я использую виртуальную машину Cloudera для быстрого запуска (CDH 5.10.1) с Pyspark (1.6.0) и Yarn (включая MR2) для агрегирования числовых данных в час. У меня есть 1 процессор с 4 ядрами и 32 ГБ оперативной памяти. У меня есть файл с именем...
868 просмотров

Pyspark: контейнер вышел с ненулевым кодом выхода 143
Я видел различные темы по этой проблеме, но приведенные решения не работают в моем случае. Среда с pyspark 2.1.0, Java 7 и имеет достаточно памяти и ядер. Я запускаю задание spark-submit, которое работает с файлами Json, задание отлично работает...
439 просмотров

spark-submit работает в режиме пряжи-кластера, но SparkLauncher не работает с теми же параметрами
Я могу отправить задание Spark через spark-submit, однако, когда я пытаюсь сделать то же самое программно с помощью SparkLauncher, это ничего мне не дает (я даже не вижу задание Spark в пользовательском интерфейсе) Ниже приведен сценарий: У меня...
805 просмотров

не могу добавить alluxio.security.login.username в spark-submit
У меня есть программа драйвера искры, для которой я пытаюсь настроить пользователя alluxio. Я прочитал этот пост: Как передать -D параметр или переменную среды для задания Spark? и, хотя это полезно, ни один из методов там, кажется, не помогает....
337 просмотров
schedule 08.08.2022

Как получить параметры, которые я передаю в команде spark-submit в python
Я использую команду spark-submit для запуска кода Python с помощью pyspark. Что-то типа: spark-submit --master yarn --num-executors 15 --executor-cores 6 test.py Есть ли способ получить параметры, которые я использую в команде spark-submit...
121 просмотров
schedule 01.09.2022

Вручную укажите количество исполнителей искры
У меня есть 1000 паркетных файлов, и я хочу, чтобы один исполнитель работал над каждым файлом на промежуточном этапе. Есть ли способ, которым мы можем вручную назначить это свойство? По умолчанию искра создает 34 задачи для задания, что в конечном...
49 просмотров
schedule 01.09.2022

Потоковая передача Spark + Kafka NoClassDefFoundError kafka/serializer/StringDecoder
Я пытаюсь отправить сообщение от моего производителя kafka и передать его в потоке искры. Но я получаю следующую ошибку, когда запускаю свое приложение при отправке искры. Ошибка Exception in thread "main" java.lang.NoClassDefFoundError:...
4054 просмотров

Работа Spark правильно работает с пряжей-клиентом, но не работает с пряжей-кластером.
Я столкнулся с проблемой при отправке баночки для работы с искрой в пряжи. Он работает хорошо и дает ожидаемый результат, когда я отправляю его с помощью --master yarn-client . Команда следующая; ./spark-submit --class main.MainClass --master...
1318 просмотров
schedule 22.05.2023

Можно ли использовать spark-submit в качестве планировщика заданий?
У меня есть автономный кластер spark без установленного другого планировщика заданий. Интересно, можно ли использовать spark-submit в качестве планировщика заданий как для искровых, так и для неискровых заданий (например, jar scala, не написанный...
85 просмотров
schedule 08.12.2022

Сервер истории Spark - определение файла журнала, в который записывается задание.
Я хочу использовать API сервера истории Spark ( http://127.0.0.1:18080/api/v1/applications/ ), чтобы идентифицировать файл журнала в / tmp / spark-events /, в который записываются определенные задания. Я вижу, что идентификатор задания совпадает с...
167 просмотров

Как установить spark.driver.extraClassPath через Apache Livy в кластере Azure Spark?
Я хотел бы добавить некоторую конфигурацию, когда задание Spark отправляется через Apache Livy в кластер Azure. В настоящее время для запуска Spark Job через Apache Livy в кластере я использую следующую команду curl -X POST --data '{"file":...
1304 просмотров
schedule 19.03.2023

java.lang.OutOfMemoryError: пространство кучи Java с использованием Docker
Итак, я запускаю следующее локально (автономно): ~/spark-2.1.0-bin-hadoop2.7/bin/spark-submit --py-files afile.py run_script.py И я получил следующую ошибку: java.lang.OutOfMemoryError: Java heap space Чтобы обойти это, я запускаю...
1969 просмотров

Где разместить приложение Spark при отправке его в Kubernetes?
У меня такой же случай как в этой теме. Spark на K8s - получение ошибки: режим kube не поддерживает ссылки на зависимости приложения в локальном Я запускаю Spark из контейнера....
1374 просмотров

Spark-submit повторно использует предыдущую банку
Я пытаюсь запустить простую работу через отправку искры. Я делаю это следующим образом: spark-submit --class com.my.namespace.MyJobClass --master local --deploy-mode client --conf spark.driver.extraClassPath=$(echo ./lib/*.jar | tr ' ' ':')...
501 просмотров
schedule 20.02.2023

Как ссылаться на файлы .so в команде spark-submit
Я использую базу данных TimesTen с Spark 2.3.0 . Мне нужно обратиться к файлам .so в команде spark-submit, чтобы подключиться к базе данных Timesten. Есть ли такой же вариант в spark-submit ? Я попытался добавить такой файл в --conf...
1639 просмотров
schedule 20.11.2022