Вопросы по теме 'spark-dataframe'

Функция Apache Spark Window с вложенным столбцом
Я не уверен, что это ошибка (или просто неправильный синтаксис). Я искал вокруг и не видел, чтобы это упоминалось в другом месте, поэтому я спрашиваю здесь, прежде чем подавать отчет об ошибке. Я пытаюсь использовать функцию окна, разделенную на...
1121 просмотров

Запрос в Spark SQL внутри массива
Чтобы создать фон, я загрузил JSON, используя sqlContext.read.json(sn3://...) df.registerTable("posts") У меня есть следующая схема для моей таблицы в Spark scala> posts.printSchema root |-- command: string (nullable = true) |--...
12439 просмотров

искра: Как сделать dropDuplicates в кадре данных, сохранив строку с самой высокой отметкой времени
У меня есть случай использования, когда мне нужно удалить повторяющиеся строки фрейма данных (в этом случае дубликат означает, что у них есть одно и то же поле «id»), сохраняя строку с самым высоким полем «timestamp» (unix timestamp). Я нашел метод...
11649 просмотров

Избегайте использования структур данных Java в Apache Spark, чтобы избежать копирования данных.
У меня есть база данных MySQL с одной таблицей, содержащей около 100 миллионов записей (~ 25 ГБ, ~ 5 столбцов). Используя Apache Spark, я извлекаю эти данные через соединитель JDBC и сохраняю их в DataFrame. Отсюда я выполняю некоторую...
156 просмотров

Как импортировать несколько файлов CSV за одну загрузку?
Предположим, у меня есть определенная схема для загрузки 10 файлов CSV в папку. Есть ли способ автоматически загружать таблицы с помощью Spark SQL. Я знаю, что это можно сделать, используя отдельный фрейм данных для каждого файла [приведенный ниже],...
112599 просмотров

Поля Json сортируются по умолчанию при преобразовании в Spark DataFrame
Когда я создаю фрейм данных из файла json, поля из файла json по умолчанию сортируются в фрейме данных. Как избежать такой сортировки? Jsonfile с одним сообщением json на строку: {"name":"john","age":10,"class":2}...
1588 просмотров
schedule 22.09.2021

Apache Spark обрабатывает искаженные данные
У меня есть две таблицы, которые я хотел бы объединить. У одного из них очень сильный перекос данных. Это приводит к тому, что моя искровая работа не выполняется параллельно, поскольку большая часть работы выполняется в одном разделе. Я слышал,...
8345 просмотров

Spark aggregateByKey в наборе данных
Вот пример aggregateByKey на mutable.HashSet [String], написанный @ bbejeck val initialSet = mutable.HashSet.empty[String] val addToSet = (s: mutable.HashSet[String], v: String) => s += v val mergePartitionSets = (p1:...
1677 просмотров

Получение пустого набора при чтении данных из kafka-Spark-Streaming
Привет, я новичок в Spark Streaming. Я пытаюсь прочитать XML-файл и отправить его в тему kafka. Вот мой код Kafka, который отправляет данные Kafka-console-consumer. Код: package org.apache.kafka.Kafka_Producer; import...
1110 просмотров

Фильтрация столбца в фрейме данных Spark для определения процента каждого элемента
Я пытаюсь отфильтровать столбец в Spark Dataframe с помощью pyspark, я хочу знать, какие записи представляют 10% или меньше, чем общий столбец, Например, в моем DataFrame есть следующий столбец под названием «Животное»: Животное Кот Кот...
2579 просмотров

схема приведения фрейма данных в Spark и Scala
Я хочу преобразовать схему фрейма данных, чтобы изменить тип некоторых столбцов с помощью Spark и Scala. В частности, я пытаюсь использовать функцию [U], описание которой гласит: « Возвращает новый набор данных, в котором каждая запись сопоставлена...
13156 просмотров

Выравнивание версии SQLcontext с помощью Spark-Core
Я создаю свое рабочее пространство в Scala-IDE для Spark-core и Dataframes. Ниже приведены конечные точки, которые я предоставил в pom.xml. <dependency> <groupId>org.apache.spark</groupId>...
392 просмотров

PySpark: получение элементов определенного раздела RDD
Я пытаюсь распечатать / взять элементы определенного раздела. В этом вопросе я нашел элегантный способ сделать это в Scala, используя этот код: distData.mapPartitionsWithIndex( (index: Int, it: Iterator[Int]) =>it.toList.map(x => if...
1061 просмотров

Как выбрать стратифицированную выборку одинакового размера из фрейма данных в Apache Spark?
У меня есть фрейм данных в Spark 2, как показано ниже, где у пользователей от 50 до тысяч сообщений. Я хотел бы создать новый фрейм данных, в котором будут все пользователи в исходном фрейме данных, но только с 5 случайно выбранными сообщениями для...
11968 просмотров
schedule 14.10.2021

Scala: определение первичного ключа во фрейме данных
Можно ли определить первичный ключ при использовании фрейма данных? У меня есть два фрейма данных, которые я объединил по «ID». Теперь я хочу выбрать «Дата» и получить на выходе «ID» первичного ключа. val join1 = df_2.join(df_3, df_3.col("ID")...
1495 просмотров

возникает искровое соединение Обнаружено декартово произведение для ВНУТРЕННЕГО соединения
У меня есть фрейм данных, и я хочу добавить для каждой строки new_col=max(some_column0) , сгруппированной другим столбцом1: maxs = df0.groupBy("catalog").agg(max("row_num").alias("max_num")).withColumnRenamed("catalog", "catalogid")...
19814 просмотров

Apache Spark. Столбец UDF на основе другого столбца без передачи его имени в качестве аргумента.
Есть DataSet с фирмой столбца, я добавляю еще один столбец в этот DataSet - вот пример firm_id: private val firms: mutable.Map[String, Integer] = ... private val firmIdFromCode: (String => Integer) = (code: String) => firms(code) val...
203 просмотров
schedule 06.10.2021

загрузка mongodb oplog.rs в искру фрейма данных
Я пытаюсь загрузить oplog.rs из MongoDB в искровой DataFrame, он загружает метаданные, и я проверил их с помощью функции printSchema , но когда я пытаюсь выполнить такое действие, как show или count, он выдает мне эту ошибку scala.MatchError:...
216 просмотров

Как установить уровень согласованности ONE и ifNotExists в Spark Cassandra DataFrame
У меня есть счетчик в кассандре 3.9 create table counter_table ( id text, hour_no int, platform text, type text, title text, count_time counter, PRIMARY KEY (id, hour_no, platform, type , title)); мой код Spark (2.1.0) Scala (2.11)...
1848 просмотров

Медленное чтение Spark из таблицы Postgres JDBC
Я пытаюсь загрузить в Spark около 1 млн строк из базы данных PostgreSQL. При использовании Spark требуется около 10 секунд. Однако загрузка того же запроса с использованием драйвера psycopg2 занимает 2 секунды. Я использую драйвер postgresql jdbc...
5644 просмотров