Я ищу, как скопировать папку с файлами зависимостей ресурсов из HDFS в локальный рабочий каталог каждого исполнителя искры с помощью Java.
Сначала я думал об использовании опции --files FILES для spark-submit, но, похоже, она не поддерживает папки с файлами произвольной вложенности. Итак, похоже, я должен сделать это, поместив эту папку на общий путь HDFS, чтобы каждый исполнитель правильно скопировал в свой рабочий каталог перед запуском задания, но еще не выяснил, как это сделать правильно в коде Java.
Или заархивируйте / gzip / заархивируйте эту папку, поместите ее в общий путь HDFS, а затем разверните архив в локальный рабочий каталог каждого исполнителя Spark.
Любая помощь или образцы кода приветствуются.
Это папка с файлами конфигурации, и они являются частью вычислений и должны быть расположены вместе с основным jar-файлом spark-submit (например, файлами базы данных, которые код jar-кода использует при запуске задания, и я, к сожалению, не могу изменить эту зависимость, поскольку я я повторно использую существующий код).
С уважением, -Юрий
--files
. Архивная папка, в идеале - person OneCricketeer   schedule 01.10.2017--archive <file>
- параметр - person OneCricketeer   schedule 03.10.2017spark.yarn.dist.{archives,files}
. spark.apache.org/docs/latest/ а> - person OneCricketeer   schedule 03.10.2017--packages
. В противном случае я не понимаю вашей проблемы. Вы можете открывать файлы из рабочего каталога исполнителя - person OneCricketeer   schedule 05.10.2017