Вопросы по теме 'spark-submit'
Внешняя библиотека jars с spark-submit
У меня есть приложение Scala, которое использует внешнюю библиотеку jar. Как я могу его использовать, если jar приложения был скопирован на hdfs?
Из локального я начал с --conf spark.driver.extraClassPath=./lib/* , но если я использую ссылку hdfs,...
396 просмотров
schedule
10.09.2021
Скопируйте файлы (конфигурацию) из HDFS в локальный рабочий каталог каждого исполнителя Spark
Я ищу, как скопировать папку с файлами зависимостей ресурсов из HDFS в локальный рабочий каталог каждого исполнителя искры с помощью Java.
Сначала я думал об использовании опции --files FILES для spark-submit, но, похоже, она не поддерживает папки...
1397 просмотров
schedule
07.09.2021
Шаг добавления AWS EMR: как добавить несколько jar-файлов из s3 в параметрах --jars и --driver-class-path?
Итак, я пытаюсь запустить приложение Apache Spark на AWS EMR в режиме cluster , используя spark-submit . Если у меня есть только одна банка для предоставления в пути к классам, она отлично работает с данной опцией, используя опции --jar и...
1201 просмотров
schedule
28.03.2022
Amazon AWS не может получить доступ к моему URL-адресу s3n
Я пытаюсь выполнить команду spark-submit с моим файлом Python, и в этом файле Python я хотел бы получить доступ к моему файлу data.txt, который хранится в моей корзине. Я использую следующую команду для доступа к моему файлу, но я продолжаю получать...
154 просмотров
schedule
30.04.2022
Путь к банкам добавлен в задание Spark - spark-submit
Я использую Spark 2.1 (BTW) в кластере YARN.
Я пытаюсь загрузить JAR в кластер YARN и использовать их для замены на месте (всегда на месте) Spark JAR.
Я пытаюсь сделать это через искру-отправку.
Вопрос Добавить банки в задание Spark -...
37 просмотров
schedule
05.05.2022
Spark-submit создает только 1 исполнителя, когда интерактивная оболочка pyspark создает 4 (оба с использованием yarn-client)
Я использую виртуальную машину Cloudera для быстрого запуска (CDH 5.10.1) с Pyspark (1.6.0) и Yarn (включая MR2) для агрегирования числовых данных в час. У меня есть 1 процессор с 4 ядрами и 32 ГБ оперативной памяти.
У меня есть файл с именем...
868 просмотров
schedule
25.06.2022
Pyspark: контейнер вышел с ненулевым кодом выхода 143
Я видел различные темы по этой проблеме, но приведенные решения не работают в моем случае.
Среда с pyspark 2.1.0, Java 7 и имеет достаточно памяти и ядер.
Я запускаю задание spark-submit, которое работает с файлами Json, задание отлично работает...
439 просмотров
schedule
27.06.2022
spark-submit работает в режиме пряжи-кластера, но SparkLauncher не работает с теми же параметрами
Я могу отправить задание Spark через spark-submit, однако, когда я пытаюсь сделать то же самое программно с помощью SparkLauncher, это ничего мне не дает (я даже не вижу задание Spark в пользовательском интерфейсе)
Ниже приведен сценарий:
У меня...
805 просмотров
schedule
04.08.2022
не могу добавить alluxio.security.login.username в spark-submit
У меня есть программа драйвера искры, для которой я пытаюсь настроить пользователя alluxio.
Я прочитал этот пост: Как передать -D параметр или переменную среды для задания Spark? и, хотя это полезно, ни один из методов там, кажется, не помогает....
337 просмотров
schedule
08.08.2022
Как получить параметры, которые я передаю в команде spark-submit в python
Я использую команду spark-submit для запуска кода Python с помощью pyspark.
Что-то типа:
spark-submit --master yarn --num-executors 15 --executor-cores 6 test.py
Есть ли способ получить параметры, которые я использую в команде spark-submit...
121 просмотров
schedule
01.09.2022
Вручную укажите количество исполнителей искры
У меня есть 1000 паркетных файлов, и я хочу, чтобы один исполнитель работал над каждым файлом на промежуточном этапе. Есть ли способ, которым мы можем вручную назначить это свойство? По умолчанию искра создает 34 задачи для задания, что в конечном...
49 просмотров
schedule
01.09.2022
Потоковая передача Spark + Kafka NoClassDefFoundError kafka/serializer/StringDecoder
Я пытаюсь отправить сообщение от моего производителя kafka и передать его в потоке искры. Но я получаю следующую ошибку, когда запускаю свое приложение при отправке искры.
Ошибка
Exception in thread "main" java.lang.NoClassDefFoundError:...
4054 просмотров
schedule
09.05.2023
Работа Spark правильно работает с пряжей-клиентом, но не работает с пряжей-кластером.
Я столкнулся с проблемой при отправке баночки для работы с искрой в пряжи. Он работает хорошо и дает ожидаемый результат, когда я отправляю его с помощью --master yarn-client .
Команда следующая;
./spark-submit --class main.MainClass --master...
1318 просмотров
schedule
22.05.2023
Можно ли использовать spark-submit в качестве планировщика заданий?
У меня есть автономный кластер spark без установленного другого планировщика заданий. Интересно, можно ли использовать spark-submit в качестве планировщика заданий как для искровых, так и для неискровых заданий (например, jar scala, не написанный...
85 просмотров
schedule
08.12.2022
Сервер истории Spark - определение файла журнала, в который записывается задание.
Я хочу использовать API сервера истории Spark ( http://127.0.0.1:18080/api/v1/applications/ ), чтобы идентифицировать файл журнала в / tmp / spark-events /, в который записываются определенные задания. Я вижу, что идентификатор задания совпадает с...
167 просмотров
schedule
12.06.2023
Как установить spark.driver.extraClassPath через Apache Livy в кластере Azure Spark?
Я хотел бы добавить некоторую конфигурацию, когда задание Spark отправляется через Apache Livy в кластер Azure. В настоящее время для запуска Spark Job через Apache Livy в кластере я использую следующую команду
curl -X POST --data '{"file":...
1304 просмотров
schedule
19.03.2023
java.lang.OutOfMemoryError: пространство кучи Java с использованием Docker
Итак, я запускаю следующее локально (автономно):
~/spark-2.1.0-bin-hadoop2.7/bin/spark-submit --py-files afile.py run_script.py
И я получил следующую ошибку:
java.lang.OutOfMemoryError: Java heap space
Чтобы обойти это, я запускаю...
1969 просмотров
schedule
07.01.2023
Где разместить приложение Spark при отправке его в Kubernetes?
У меня такой же случай как в этой теме. Spark на K8s - получение ошибки: режим kube не поддерживает ссылки на зависимости приложения в локальном
Я запускаю Spark из контейнера....
1374 просмотров
schedule
15.05.2023
Spark-submit повторно использует предыдущую банку
Я пытаюсь запустить простую работу через отправку искры. Я делаю это следующим образом:
spark-submit --class com.my.namespace.MyJobClass --master local --deploy-mode client --conf spark.driver.extraClassPath=$(echo ./lib/*.jar | tr ' ' ':')...
501 просмотров
schedule
20.02.2023
Как ссылаться на файлы .so в команде spark-submit
Я использую базу данных TimesTen с Spark 2.3.0 .
Мне нужно обратиться к файлам .so в команде spark-submit, чтобы подключиться к базе данных Timesten.
Есть ли такой же вариант в spark-submit ?
Я попытался добавить такой файл в --conf...
1639 просмотров
schedule
20.11.2022