Статьи по теме spark-dataframe [apache-spark, apache-spark-sql, window-functions, spark-dataframe, pyspark]

Вопросы по теме 'spark-dataframe'

Функция Apache Spark Window с вложенным столбцом

Я не уверен, что это ошибка (или просто неправильный синтаксис). Я искал вокруг и не видел, чтобы это упоминалось в другом месте, поэтому я спрашиваю здесь, прежде чем подавать отчет об ошибке. Я пытаюсь использовать функцию окна, разделенную на...

1121 просмотров

05.10.2021

Запрос в Spark SQL внутри массива

Чтобы создать фон, я загрузил JSON, используя sqlContext.read.json(sn3://...) df.registerTable("posts") У меня есть следующая схема для моей таблицы в Spark scala> posts.printSchema root |-- command: string (nullable = true) |--...

12439 просмотров

apache-spark apache-spark-sql spark-dataframe

07.11.2021

искра: Как сделать dropDuplicates в кадре данных, сохранив строку с самой высокой отметкой времени

У меня есть случай использования, когда мне нужно удалить повторяющиеся строки фрейма данных (в этом случае дубликат означает, что у них есть одно и то же поле «id»), сохраняя строку с самым высоким полем «timestamp» (unix timestamp). Я нашел метод...

11649 просмотров

apache-spark pyspark dataframe spark-dataframe

11.10.2021

Избегайте использования структур данных Java в Apache Spark, чтобы избежать копирования данных.

У меня есть база данных MySQL с одной таблицей, содержащей около 100 миллионов записей (~ 25 ГБ, ~ 5 столбцов). Используя Apache Spark, я извлекаю эти данные через соединитель JDBC и сохраняю их в DataFrame. Отсюда я выполняю некоторую...

156 просмотров

apache-spark apache-spark-sql spark-dataframe

30.09.2021

Как импортировать несколько файлов CSV за одну загрузку?

Предположим, у меня есть определенная схема для загрузки 10 файлов CSV в папку. Есть ли способ автоматически загружать таблицы с помощью Spark SQL. Я знаю, что это можно сделать, используя отдельный фрейм данных для каждого файла [приведенный ниже],...

112599 просмотров

apache-spark apache-spark-sql spark-dataframe

11.11.2021

Поля Json сортируются по умолчанию при преобразовании в Spark DataFrame

Когда я создаю фрейм данных из файла json, поля из файла json по умолчанию сортируются в фрейме данных. Как избежать такой сортировки? Jsonfile с одним сообщением json на строку: {"name":"john","age":10,"class":2}...

1588 просмотров

json apache-spark scala spark-dataframe

22.09.2021

Apache Spark обрабатывает искаженные данные

У меня есть две таблицы, которые я хотел бы объединить. У одного из них очень сильный перекос данных. Это приводит к тому, что моя искровая работа не выполняется параллельно, поскольку большая часть работы выполняется в одном разделе. Я слышал,...

8345 просмотров

apache-spark hadoop scala spark-dataframe

10.11.2021

Spark aggregateByKey в наборе данных

Вот пример aggregateByKey на mutable.HashSet [String], написанный @ bbejeck val initialSet = mutable.HashSet.empty[String] val addToSet = (s: mutable.HashSet[String], v: String) => s += v val mergePartitionSets = (p1:...

1677 просмотров

apache-spark apache-spark-sql spark-streaming scala spark-dataframe

04.10.2021

Получение пустого набора при чтении данных из kafka-Spark-Streaming

Привет, я новичок в Spark Streaming. Я пытаюсь прочитать XML-файл и отправить его в тему kafka. Вот мой код Kafka, который отправляет данные Kafka-console-consumer. Код: package org.apache.kafka.Kafka_Producer; import...

1110 просмотров

apache-kafka apache-spark spark-streaming spark-dataframe

04.11.2021

Фильтрация столбца в фрейме данных Spark для определения процента каждого элемента

Я пытаюсь отфильтровать столбец в Spark Dataframe с помощью pyspark, я хочу знать, какие записи представляют 10% или меньше, чем общий столбец, Например, в моем DataFrame есть следующий столбец под названием «Животное»: Животное Кот Кот...

2579 просмотров

python pyspark filtering pyspark-sql spark-dataframe

01.11.2021

схема приведения фрейма данных в Spark и Scala

Я хочу преобразовать схему фрейма данных, чтобы изменить тип некоторых столбцов с помощью Spark и Scala. В частности, я пытаюсь использовать функцию [U], описание которой гласит: « Возвращает новый набор данных, в котором каждая запись сопоставлена...

13156 просмотров

apache-spark apache-spark-sql scala spark-dataframe

26.09.2021

Выравнивание версии SQLcontext с помощью Spark-Core

Я создаю свое рабочее пространство в Scala-IDE для Spark-core и Dataframes. Ниже приведены конечные точки, которые я предоставил в pom.xml. <dependency> <groupId>org.apache.spark</groupId>...

392 просмотров

maven apache-spark apache-spark-sql spark-dataframe

02.10.2021

PySpark: получение элементов определенного раздела RDD

Я пытаюсь распечатать / взять элементы определенного раздела. В этом вопросе я нашел элегантный способ сделать это в Scala, используя этот код: distData.mapPartitionsWithIndex( (index: Int, it: Iterator[Int]) =>it.toList.map(x => if...

1061 просмотров

python apache-spark pyspark apache-spark-sql spark-dataframe

05.09.2021

Как выбрать стратифицированную выборку одинакового размера из фрейма данных в Apache Spark?

У меня есть фрейм данных в Spark 2, как показано ниже, где у пользователей от 50 до тысяч сообщений. Я хотел бы создать новый фрейм данных, в котором будут все пользователи в исходном фрейме данных, но только с 5 случайно выбранными сообщениями для...

11968 просмотров

apache-spark pyspark spark-dataframe

14.10.2021

Scala: определение первичного ключа во фрейме данных

Можно ли определить первичный ключ при использовании фрейма данных? У меня есть два фрейма данных, которые я объединил по «ID». Теперь я хочу выбрать «Дата» и получить на выходе «ID» первичного ключа. val join1 = df_2.join(df_3, df_3.col("ID")...

1495 просмотров

apache-spark primary-key spark-dataframe

03.10.2021

возникает искровое соединение Обнаружено декартово произведение для ВНУТРЕННЕГО соединения

У меня есть фрейм данных, и я хочу добавить для каждой строки new_col=max(some_column0) , сгруппированной другим столбцом1: maxs = df0.groupBy("catalog").agg(max("row_num").alias("max_num")).withColumnRenamed("catalog", "catalogid")...

19814 просмотров

pyspark apache-spark-2.0 spark-dataframe

05.09.2021

Apache Spark. Столбец UDF на основе другого столбца без передачи его имени в качестве аргумента.

Есть DataSet с фирмой столбца, я добавляю еще один столбец в этот DataSet - вот пример firm_id: private val firms: mutable.Map[String, Integer] = ... private val firmIdFromCode: (String => Integer) = (code: String) => firms(code) val...

203 просмотров

apache-spark scala udf spark-dataframe

06.10.2021

загрузка mongodb oplog.rs в искру фрейма данных

Я пытаюсь загрузить oplog.rs из MongoDB в искровой DataFrame, он загружает метаданные, и я проверил их с помощью функции printSchema , но когда я пытаюсь выполнить такое действие, как show или count, он выдает мне эту ошибку scala.MatchError:...

216 просмотров

mongodb apache-spark scala spark-dataframe

27.09.2021

Как установить уровень согласованности ONE и ifNotExists в Spark Cassandra DataFrame

У меня есть счетчик в кассандре 3.9 create table counter_table ( id text, hour_no int, platform text, type text, title text, count_time counter, PRIMARY KEY (id, hour_no, platform, type , title)); мой код Spark (2.1.0) Scala (2.11)...

1848 просмотров

cassandra apache-spark scala spark-cassandra-connector spark-dataframe

01.12.2021

Медленное чтение Spark из таблицы Postgres JDBC

Я пытаюсь загрузить в Spark около 1 млн строк из базы данных PostgreSQL. При использовании Spark требуется около 10 секунд. Однако загрузка того же запроса с использованием драйвера psycopg2 занимает 2 секунды. Я использую драйвер postgresql jdbc...

5644 просмотров

postgresql apache-spark pyspark jdbc spark-dataframe

12.11.2021