Вопросы по теме 'apache-spark-2.0'

Автономный режим Spark 2.0, ошибка запуска рабочего процесса динамического выделения ресурсов
Я запускаю Spark 2.0 в автономном режиме, успешно настроил его для запуска на сервере, а также смог настроить Ipython Kernel PySpark в качестве опции в Jupyter Notebook. Все работает нормально, но я сталкиваюсь с проблемой, заключающейся в том, что...
389 просмотров

возникает искровое соединение Обнаружено декартово произведение для ВНУТРЕННЕГО соединения
У меня есть фрейм данных, и я хочу добавить для каждой строки new_col=max(some_column0) , сгруппированной другим столбцом1: maxs = df0.groupBy("catalog").agg(max("row_num").alias("max_num")).withColumnRenamed("catalog", "catalogid")...
19814 просмотров

Spark 2.0 с spark.read.text Ожидаемая часть, специфичная для схемы, с индексом 3: s3: error
У меня возникла странная проблема с Spark 2.0, когда я использую Sparksession для загрузки текстового файла. В настоящее время моя конфигурация искры выглядит так: val sparkConf = new SparkConf().setAppName("name-here")...
3316 просмотров

поиск заменить с помощью Apache spark java
Постановка проблемы: Нам нужно заменить синонимы слов в строке на их эквивалентные слова (из большой коллекции списка синонимов ~ 40000 + пары ключевых значений) в большом наборе данных (50000 строк). Пример: Ввод Allen jeevi pramod...
1005 просмотров

В Apache Spark, как добиться поведения --host [host] на нескольких рабочих процессах с помощью переменной spark-env или start-slaves.sh
В автономном режиме Spark, когда я запускаю воркера с start-slave.sh spark://master:7077 , я могу указать хост, который слушает воркер с помощью --host [host] . Это непрактично, если у вас несколько рабочих. Как я могу добиться, чтобы рабочие...
216 просмотров
schedule 19.11.2021

org.apache.spark.sql.AnalysisException: не удается разрешить `` S.SID ''
Я использую язык Java . В моем коде есть следующий запрос: public static String GET_E_BCHGS = "SELECT BCL.* " +"FROM (SELECT * " +"FROM (SELECT (SELECT BILLABLE_CHG_ID " +"FROM BC...
159 просмотров

Spark DataFrame: найдите и установите основной корень для дочернего элемента
У меня есть следующий фрейм данных Apache Spark: Родитель - Дочерний A1 - A10 A1 - A2 A2 - A3 A3 - A4 A5 - A7 A7 - A6 A8 - A9 Этот DataFrame отображает связь между родительским и дочерним...
734 просмотров

VectorAssembler не работает с java.util.NoSuchElementException: Param handleInvalid не существует
При преобразовании конвейера машинного обучения, в котором используется VectorAssembler, возникает ошибка «Param handleInvalid не существует». Почему это происходит? Я что-то упускаю? Я новичок в PySpark. Я использую это в соответствии с кодом...
641 просмотров

Apache Spark JOIN с динамическим повторным разделением
Я пытаюсь сделать довольно простое соединение двух таблиц, ничего сложного. Загрузите обе таблицы, выполните соединение и обновите столбцы, но он продолжает генерировать исключение. Я заметил, что задача застревает на последнем разделе 199/200 и...
870 просмотров

Как собрать Spark из исходников на странице загрузки Spark?
Я попытался установить и собрать Spark 2.0.0 на виртуальной машине Ubuntu с Ubuntu 16.04 следующим образом: Установить Java sudo apt-add-repository ppa:webupd8team/java sudo apt-get update sudo apt-get install oracle-java8-installer...
5310 просмотров
schedule 03.03.2022

Невозможно запустить Spark-Shell в Windows 10: Не удалось инициализировать компилятор: объект java.lang.Object в зеркале компилятора не найден
Я новичок в Apache Spark, Я установил следующее на свои окна 10 и получаю ошибку ниже, когда запускаю искровую оболочку, может ли кто-нибудь помочь мне здесь. Установленная версия Java JDK: версия Java "9" Среда выполнения Java (TM) SE (сборка 9...
986 просмотров
schedule 27.04.2022

Почему размеры разделенных файлов не уменьшаются при перераспределении данных?
Я запускаю пакетное задание Spark, которое обрабатывает большой (51 ГБ) XML-файл с использованием spark-xml источника данных . Я запускаю локально на своей машине. Я хочу использовать все свои ядра (8), но я хочу, чтобы размер каждой задачи был...
167 просмотров

зарегистрировать два udf с одинаковым именем на sparkSession
Во время миграции с Spark 1.6 на Spark 2.2 я столкнулся с проблемой. Реализация в Spark 1.6 имеет две UDF: Пользовательская функция SparkSQL (реализация org.apache.spark.sql.api.java.UDF2, зарегистрированная через...
876 просмотров

Псевдонимы функций Spark - эффективные udfs
Контекст Во многих SQL-запросах, которые я пишу, я обнаруживаю, что комбинирую предопределенные функции Spark точно таким же образом, что часто приводит к подробному и дублированному коду , и мой инстинкт разработчика состоит в том, чтобы захотеть...
144 просмотров

Apache Spark Graphx — реализация Java
Согласно документации Spark, кажется, что GraphX ​​еще не имеет доступного Java API. Верно ли мое предположение? Если да, то может ли кто-нибудь привести пример, в котором библиотека GraphX ​​вызывается с использованием Java-кода?
2238 просмотров

Функция lit() отсутствует в PySpark?
Возможно, я ошибаюсь, но мне кажется, что в PySpark отсутствует функция pyspark.sql.functions.lit() . Впервые заметил, когда пытался импортировать. Я также проверил исходный код и не смог его найти. Просто хотел сначала проверить здесь, прав ли...
2102 просмотров

Как записать кадр данных с повторяющимся именем столбца в файл csv в pyspark
Как я могу записать фрейм данных с тем же именем столбца после операции соединения в CSV-файл. В настоящее время я использую следующий код. dfFinal.coalesce(1).write.format('com.databricks.spark.csv').save('/home/user/output/',header = 'true')...
6639 просмотров

Чтение файла Json с помощью Apache Spark
Я пытаюсь прочитать файл Json, используя Spark v2.0.0. В случае простых данных код работает очень хорошо. В случае немного сложных данных, когда я печатаю df.show(), данные отображаются неправильно. вот мой код: SparkSession session =...
16205 просмотров

Как преобразовать RDD плотного вектора в DataFrame в pyspark?
У меня есть DenseVector RDD вот так >>> frequencyDenseVectors.collect() [DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 0.0, 1.0]), DenseVector([1.0, 1.0, 1.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]),...
8304 просмотров

Почему SparkSQL требует двух буквальных обратных косых черт в SQL-запросе?
Когда я запускаю приведенный ниже код Scala из Spark 2.0 REPL (spark-shell), он работает, как я и предполагал, разбивая строку с помощью простого регулярного выражения. import org.apache.spark.sql.SparkSession // Create session val sparkSession =...
4343 просмотров