Вопросы по теме 'spark-dataframe'
Функция Apache Spark Window с вложенным столбцом
Я не уверен, что это ошибка (или просто неправильный синтаксис). Я искал вокруг и не видел, чтобы это упоминалось в другом месте, поэтому я спрашиваю здесь, прежде чем подавать отчет об ошибке.
Я пытаюсь использовать функцию окна, разделенную на...
1121 просмотров
schedule
05.10.2021
Запрос в Spark SQL внутри массива
Чтобы создать фон, я загрузил JSON, используя
sqlContext.read.json(sn3://...)
df.registerTable("posts")
У меня есть следующая схема для моей таблицы в Spark
scala> posts.printSchema
root
|-- command: string (nullable = true)
|--...
12439 просмотров
schedule
07.11.2021
искра: Как сделать dropDuplicates в кадре данных, сохранив строку с самой высокой отметкой времени
У меня есть случай использования, когда мне нужно удалить повторяющиеся строки фрейма данных (в этом случае дубликат означает, что у них есть одно и то же поле «id»), сохраняя строку с самым высоким полем «timestamp» (unix timestamp).
Я нашел метод...
11649 просмотров
schedule
11.10.2021
Избегайте использования структур данных Java в Apache Spark, чтобы избежать копирования данных.
У меня есть база данных MySQL с одной таблицей, содержащей около 100 миллионов записей (~ 25 ГБ, ~ 5 столбцов). Используя Apache Spark, я извлекаю эти данные через соединитель JDBC и сохраняю их в DataFrame. Отсюда я выполняю некоторую...
156 просмотров
schedule
30.09.2021
Как импортировать несколько файлов CSV за одну загрузку?
Предположим, у меня есть определенная схема для загрузки 10 файлов CSV в папку. Есть ли способ автоматически загружать таблицы с помощью Spark SQL. Я знаю, что это можно сделать, используя отдельный фрейм данных для каждого файла [приведенный ниже],...
112599 просмотров
schedule
11.11.2021
Поля Json сортируются по умолчанию при преобразовании в Spark DataFrame
Когда я создаю фрейм данных из файла json, поля из файла json по умолчанию сортируются в фрейме данных. Как избежать такой сортировки? Jsonfile с одним сообщением json на строку:
{"name":"john","age":10,"class":2}...
1588 просмотров
schedule
22.09.2021
Apache Spark обрабатывает искаженные данные
У меня есть две таблицы, которые я хотел бы объединить. У одного из них очень сильный перекос данных. Это приводит к тому, что моя искровая работа не выполняется параллельно, поскольку большая часть работы выполняется в одном разделе.
Я слышал,...
8345 просмотров
schedule
10.11.2021
Spark aggregateByKey в наборе данных
Вот пример aggregateByKey на mutable.HashSet [String], написанный @ bbejeck
val initialSet = mutable.HashSet.empty[String]
val addToSet = (s: mutable.HashSet[String], v: String) => s += v
val mergePartitionSets = (p1:...
1677 просмотров
schedule
04.10.2021
Получение пустого набора при чтении данных из kafka-Spark-Streaming
Привет, я новичок в Spark Streaming. Я пытаюсь прочитать XML-файл и отправить его в тему kafka. Вот мой код Kafka, который отправляет данные Kafka-console-consumer.
Код:
package org.apache.kafka.Kafka_Producer;
import...
1110 просмотров
schedule
04.11.2021
Фильтрация столбца в фрейме данных Spark для определения процента каждого элемента
Я пытаюсь отфильтровать столбец в Spark Dataframe с помощью pyspark, я хочу знать, какие записи представляют 10% или меньше, чем общий столбец,
Например, в моем DataFrame есть следующий столбец под названием «Животное»:
Животное
Кот
Кот...
2579 просмотров
schedule
01.11.2021
схема приведения фрейма данных в Spark и Scala
Я хочу преобразовать схему фрейма данных, чтобы изменить тип некоторых столбцов с помощью Spark и Scala.
В частности, я пытаюсь использовать функцию [U], описание которой гласит: « Возвращает новый набор данных, в котором каждая запись сопоставлена...
13156 просмотров
schedule
26.09.2021
Выравнивание версии SQLcontext с помощью Spark-Core
Я создаю свое рабочее пространство в Scala-IDE для Spark-core и Dataframes. Ниже приведены конечные точки, которые я предоставил в pom.xml.
<dependency>
<groupId>org.apache.spark</groupId>...
392 просмотров
schedule
02.10.2021
PySpark: получение элементов определенного раздела RDD
Я пытаюсь распечатать / взять элементы определенного раздела. В этом вопросе я нашел элегантный способ сделать это в Scala, используя этот код:
distData.mapPartitionsWithIndex( (index: Int, it: Iterator[Int]) =>it.toList.map(x => if...
1061 просмотров
schedule
05.09.2021
Как выбрать стратифицированную выборку одинакового размера из фрейма данных в Apache Spark?
У меня есть фрейм данных в Spark 2, как показано ниже, где у пользователей от 50 до тысяч сообщений. Я хотел бы создать новый фрейм данных, в котором будут все пользователи в исходном фрейме данных, но только с 5 случайно выбранными сообщениями для...
11968 просмотров
schedule
14.10.2021
Scala: определение первичного ключа во фрейме данных
Можно ли определить первичный ключ при использовании фрейма данных? У меня есть два фрейма данных, которые я объединил по «ID». Теперь я хочу выбрать «Дата» и получить на выходе «ID» первичного ключа.
val join1 = df_2.join(df_3, df_3.col("ID")...
1495 просмотров
schedule
03.10.2021
возникает искровое соединение Обнаружено декартово произведение для ВНУТРЕННЕГО соединения
У меня есть фрейм данных, и я хочу добавить для каждой строки new_col=max(some_column0) , сгруппированной другим столбцом1:
maxs = df0.groupBy("catalog").agg(max("row_num").alias("max_num")).withColumnRenamed("catalog", "catalogid")...
19814 просмотров
schedule
05.09.2021
Apache Spark. Столбец UDF на основе другого столбца без передачи его имени в качестве аргумента.
Есть DataSet с фирмой столбца, я добавляю еще один столбец в этот DataSet - вот пример firm_id:
private val firms: mutable.Map[String, Integer] = ...
private val firmIdFromCode: (String => Integer) = (code: String) => firms(code)
val...
203 просмотров
schedule
06.10.2021
загрузка mongodb oplog.rs в искру фрейма данных
Я пытаюсь загрузить oplog.rs из MongoDB в искровой DataFrame, он загружает метаданные, и я проверил их с помощью функции printSchema , но когда я пытаюсь выполнить такое действие, как show или count, он выдает мне эту ошибку scala.MatchError:...
216 просмотров
schedule
27.09.2021
Как установить уровень согласованности ONE и ifNotExists в Spark Cassandra DataFrame
У меня есть счетчик в кассандре 3.9
create table counter_table ( id text, hour_no int, platform text, type text, title text,
count_time counter,
PRIMARY KEY (id, hour_no, platform, type , title));
мой код Spark (2.1.0) Scala (2.11)...
1848 просмотров
schedule
01.12.2021
Медленное чтение Spark из таблицы Postgres JDBC
Я пытаюсь загрузить в Spark около 1 млн строк из базы данных PostgreSQL. При использовании Spark требуется около 10 секунд. Однако загрузка того же запроса с использованием драйвера psycopg2 занимает 2 секунды. Я использую драйвер postgresql jdbc...
5644 просмотров
schedule
12.11.2021