Попытка понять вкладку заданий пользовательского интерфейса Spark

Я работаю над искровой программой, в которой мне нужно загружать данные avro и обрабатывать их. Я пытаюсь понять, как создаются идентификаторы заданий для искрового приложения. Я использую приведенную ниже строку кода для загрузки данных avro.

sqlContext.read.format("com.databricks.spark.avro").load(путь)

Насколько я знаю, идентификаторы заданий будут создаваться на основе действий, встречающихся в программе. Моя работа запланирована на запуск каждые 30 минут. Когда я смотрю на сервер истории искр для этого приложения, я вижу, что для операции загрузки создается идентификатор задания. Это происходит только иногда, и журнал выглядит абсолютно нормально. Я использую искру 1.6.1

Мне любопытно узнать, создает ли операция загрузки новый идентификатор задания в приложении?


person srujana    schedule 18.07.2016    source источник


Ответы (1)


В целом операции загрузки данных в Spark SQL не являются ленивыми, если вы не предоставите схему для DataFrameReader. В зависимости от масштаба источника и воздействия может варьироваться от простого доступа к метаданным до полного сканирования данных.

В этом конкретном случае в значительной степени ограничивается сканированием файловой системы и доступ к одному файлу для чтения схемы.

person zero323    schedule 18.07.2016
comment
В моем приложении есть 2 операции загрузки. Один для загрузки данных паркета, а другой для загрузки данных avro. Идентификатор задания создается при операции загрузки данных parquet, но создание идентификатора задания не соответствует операции загрузки данных avro. Иногда я не вижу идентификатор задания при операции загрузки данных avro. Мне интересно, почему это происходит. Если у вас есть идея, можете ли вы уточнить это поведение? - person srujana; 18.07.2016
comment
Я попытался выяснить и отладить, чтобы понять, почему это несовместимо, и добавил сохранение на этапе загрузки, который возвращает кадр данных. Даже в этом случае задания в пользовательском интерфейсе Spark непоследовательны. - person srujana; 18.07.2016