Статьи по теме apache-spark-2.0

Вопросы по теме 'apache-spark-2.0'

Автономный режим Spark 2.0, ошибка запуска рабочего процесса динамического выделения ресурсов

Я запускаю Spark 2.0 в автономном режиме, успешно настроил его для запуска на сервере, а также смог настроить Ipython Kernel PySpark в качестве опции в Jupyter Notebook. Все работает нормально, но я сталкиваюсь с проблемой, заключающейся в том, что...

389 просмотров

jupyter-notebook apache-spark apache-spark-2.0

29.09.2021

возникает искровое соединение Обнаружено декартово произведение для ВНУТРЕННЕГО соединения

У меня есть фрейм данных, и я хочу добавить для каждой строки new_col=max(some_column0) , сгруппированной другим столбцом1: maxs = df0.groupBy("catalog").agg(max("row_num").alias("max_num")).withColumnRenamed("catalog", "catalogid")...

19814 просмотров

pyspark apache-spark-2.0 spark-dataframe

05.09.2021

Spark 2.0 с spark.read.text Ожидаемая часть, специфичная для схемы, с индексом 3: s3: error

У меня возникла странная проблема с Spark 2.0, когда я использую Sparksession для загрузки текстового файла. В настоящее время моя конфигурация искры выглядит так: val sparkConf = new SparkConf().setAppName("name-here")...

3316 просмотров

amazon-s3 apache-spark apache-spark-2.0

24.10.2021

поиск заменить с помощью Apache spark java

Постановка проблемы: Нам нужно заменить синонимы слов в строке на их эквивалентные слова (из большой коллекции списка синонимов ~ 40000 + пары ключевых значений) в большом наборе данных (50000 строк). Пример: Ввод Allen jeevi pramod...

1005 просмотров

apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0 spark-dataframe

30.09.2021

В Apache Spark, как добиться поведения --host [host] на нескольких рабочих процессах с помощью переменной spark-env или start-slaves.sh

В автономном режиме Spark, когда я запускаю воркера с start-slave.sh spark://master:7077 , я могу указать хост, который слушает воркер с помощью --host [host] . Это непрактично, если у вас несколько рабочих. Как я могу добиться, чтобы рабочие...

216 просмотров

apache-spark apache-spark-2.0

19.11.2021

org.apache.spark.sql.AnalysisException: не удается разрешить `` S.SID ''

Я использую язык Java . В моем коде есть следующий запрос: public static String GET_E_BCHGS = "SELECT BCL.* " +"FROM (SELECT * " +"FROM (SELECT (SELECT BILLABLE_CHG_ID " +"FROM BC...

159 просмотров

java apache-spark apache-spark-sql apache-spark-2.0

24.10.2021

Spark DataFrame: найдите и установите основной корень для дочернего элемента

У меня есть следующий фрейм данных Apache Spark: Родитель - Дочерний A1 - A10 A1 - A2 A2 - A3 A3 - A4 A5 - A7 A7 - A6 A8 - A9 Этот DataFrame отображает связь между родительским и дочерним...

734 просмотров

apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0

16.10.2021

VectorAssembler не работает с java.util.NoSuchElementException: Param handleInvalid не существует

При преобразовании конвейера машинного обучения, в котором используется VectorAssembler, возникает ошибка «Param handleInvalid не существует». Почему это происходит? Я что-то упускаю? Я новичок в PySpark. Я использую это в соответствии с кодом...

641 просмотров

apache-spark pyspark apache-spark-mllib apache-spark-ml apache-spark-2.0

08.10.2021

Apache Spark JOIN с динамическим повторным разделением

Я пытаюсь сделать довольно простое соединение двух таблиц, ничего сложного. Загрузите обе таблицы, выполните соединение и обновите столбцы, но он продолжает генерировать исключение. Я заметил, что задача застревает на последнем разделе 199/200 и...

870 просмотров

apache-spark apache-spark-sql scala apache-spark-dataset apache-spark-2.0

20.02.2022

Как собрать Spark из исходников на странице загрузки Spark?

Я попытался установить и собрать Spark 2.0.0 на виртуальной машине Ubuntu с Ubuntu 16.04 следующим образом: Установить Java sudo apt-add-repository ppa:webupd8team/java sudo apt-get update sudo apt-get install oracle-java8-installer...

5310 просмотров

ubuntu scala sbt apache-spark-2.0

03.03.2022

Невозможно запустить Spark-Shell в Windows 10: Не удалось инициализировать компилятор: объект java.lang.Object в зеркале компилятора не найден

Я новичок в Apache Spark, Я установил следующее на свои окна 10 и получаю ошибку ниже, когда запускаю искровую оболочку, может ли кто-нибудь помочь мне здесь. Установленная версия Java JDK: версия Java "9" Среда выполнения Java (TM) SE (сборка 9...

986 просмотров

apache-spark apache-spark-2.0

27.04.2022

Почему размеры разделенных файлов не уменьшаются при перераспределении данных?

Я запускаю пакетное задание Spark, которое обрабатывает большой (51 ГБ) XML-файл с использованием spark-xml источника данных . Я запускаю локально на своей машине. Я хочу использовать все свои ядра (8), но я хочу, чтобы размер каждой задачи был...

167 просмотров

apache-spark apache-spark-sql apache-spark-2.0

12.06.2022

зарегистрировать два udf с одинаковым именем на sparkSession

Во время миграции с Spark 1.6 на Spark 2.2 я столкнулся с проблемой. Реализация в Spark 1.6 имеет две UDF: Пользовательская функция SparkSQL (реализация org.apache.spark.sql.api.java.UDF2, зарегистрированная через...

876 просмотров

java apache-spark hive user-defined-functions apache-spark-2.0

14.06.2022

Псевдонимы функций Spark - эффективные udfs

Контекст Во многих SQL-запросах, которые я пишу, я обнаруживаю, что комбинирую предопределенные функции Spark точно таким же образом, что часто приводит к подробному и дублированному коду , и мой инстинкт разработчика состоит в том, чтобы захотеть...

144 просмотров

apache-spark apache-spark-sql apache-spark-2.0

29.07.2022

Apache Spark Graphx — реализация Java

Согласно документации Spark, кажется, что GraphX еще не имеет доступного Java API. Верно ли мое предположение? Если да, то может ли кто-нибудь привести пример, в котором библиотека GraphX вызывается с использованием Java-кода?

2238 просмотров

apache-spark apache-spark-2.0 spark-graphx

14.08.2022

Функция lit() отсутствует в PySpark?

Возможно, я ошибаюсь, но мне кажется, что в PySpark отсутствует функция pyspark.sql.functions.lit() . Впервые заметил, когда пытался импортировать. Я также проверил исходный код и не смог его найти. Просто хотел сначала проверить здесь, прав ли...

2102 просмотров

python apache-spark pyspark apache-spark-sql apache-spark-2.0

20.08.2022

Как записать кадр данных с повторяющимся именем столбца в файл csv в pyspark

Как я могу записать фрейм данных с тем же именем столбца после операции соединения в CSV-файл. В настоящее время я использую следующий код. dfFinal.coalesce(1).write.format('com.databricks.spark.csv').save('/home/user/output/',header = 'true')...

6639 просмотров

apache-spark pyspark apache-spark-sql apache-spark-2.0

04.10.2022

Чтение файла Json с помощью Apache Spark

Я пытаюсь прочитать файл Json, используя Spark v2.0.0. В случае простых данных код работает очень хорошо. В случае немного сложных данных, когда я печатаю df.show(), данные отображаются неправильно. вот мой код: SparkSession session =...

16205 просмотров

java json apache-spark hadoop apache-spark-2.0

11.07.2023

Как преобразовать RDD плотного вектора в DataFrame в pyspark?

У меня есть DenseVector RDD вот так >>> frequencyDenseVectors.collect() [DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 0.0, 1.0]), DenseVector([1.0, 1.0, 1.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]),...

8304 просмотров

apache-spark pyspark apache-spark-mllib apache-spark-ml apache-spark-2.0

30.01.2023

Почему SparkSQL требует двух буквальных обратных косых черт в SQL-запросе?

Когда я запускаю приведенный ниже код Scala из Spark 2.0 REPL (spark-shell), он работает, как я и предполагал, разбивая строку с помощью простого регулярного выражения. import org.apache.spark.sql.SparkSession // Create session val sparkSession =...

4343 просмотров

apache-spark apache-spark-sql apache-spark-2.0

20.12.2022