Вопросы по теме 'apache-spark-dataset'
Выбор набора данных Spark с типизированным столбцом
Глядя на функцию select() в Spark DataSet, можно увидеть различные сгенерированные сигнатуры функций:
(c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....)
Кажется, это намекает на то, что я должен иметь возможность напрямую...
11650 просмотров
schedule
13.10.2021
Spark 2.0 DataSets groupByKey и разделение операций и безопасность типов
Я очень доволен Spark 2.0 DataSets из-за безопасности типов во время компиляции. Но вот пара проблем, которые я не могу решить, я также не нашел для этого хорошей документации.
Проблема №1 - операция разделения по агрегированному столбцу -...
6556 просмотров
schedule
24.09.2021
поиск заменить с помощью Apache spark java
Постановка проблемы:
Нам нужно заменить синонимы слов в строке на их эквивалентные слова (из большой коллекции списка синонимов ~ 40000 + пары ключевых значений) в большом наборе данных (50000 строк).
Пример: Ввод
Allen jeevi pramod...
1005 просмотров
schedule
30.09.2021
Spark делает обмен разделами, которые уже правильно распределены
Я объединяю 2 набора данных двумя столбцами, и в результате получается набор данных, содержащий 55 миллиардов строк. После этого мне нужно выполнить некоторую агрегацию в этой DS по столбцам, отличным от тех, которые используются в соединении....
314 просмотров
schedule
02.11.2021
Типизированное преобразование наборов данных с помощью mapPartitions
Я хочу выполнить типизированное преобразование, чтобы заменить все значения некоторых столбцов в наборе данных. Я знаю, что это возможно с помощью «select», но я хотел бы, чтобы возвращался полный набор данных с измененными значениями конкретных...
1160 просмотров
schedule
26.09.2021
Spark: Как мне развернуть данные и добавить имя столбца также в pyspark или scala Spark?
Spark: я хочу разделить несколько столбцов и объединить их в один столбец с именем столбца в виде отдельной строки.
Input data:
+-----------+-----------+-----------+
| ASMT_ID | WORKER | LABOR |...
1349 просмотров
schedule
10.09.2021
Каков эффективный способ заменить значение столбца Spark Dataset из sortedMap с помощью Scala?
Например, у меня SortedMap :
key value
-----------
aaa 1
bbb 2
ccc 3
И набор данных с 3 столбцами:
col1 col2 col3
------------------
zzz aaa w
xxx ccc n
sss bbb v
Я хочу изменить значение...
153 просмотров
schedule
16.11.2021
Spark-Xml: массив внутри массива в Dataframe для генерации XML
У меня есть требование создать XML, который имеет структуру ниже
<parent>
<name>parent</name
<childs>
<child>
<name>child1</name>
</child>
<child>...
815 просмотров
schedule
24.11.2021
Добавить одну строку из одного набора данных в другой набор данных в Spark Scala
Существует два набора DataFrame: один - «обучающий набор», другой - «тестовый набор». Я хочу выполнить итерацию некоторого алгоритма (назовем AAA, для которого требуется входной формат RDD), используя «Учебный набор плюс только одна строка тестового...
192 просмотров
schedule
28.10.2021
Dataset.reduce не поддерживает функцию сокращения
У меня простой код:
test("0153") {
val c = Seq(1,8,4,2,7)
val max = (x:Int, y:Int)=> if (x > y) x else y
c.reduce(max)
}
Работает нормально. Но когда я использую Dataset.reduce так же,
test("SparkSQLTest") {
def max(x:...
134 просмотров
schedule
07.10.2021
Получение значений из набора данных ‹Row› в файл .txt (с использованием Java)
Я здесь новенький, поэтому я надеюсь помочь вам, и мне помогут, если это будет возможно.
Я сделал проект Apache Spark, используя Spark SQL и ML Spark на Java. Я закончил этот проект, но у меня проблемы с выводом.
У меня есть Dataset<Row>...
1446 просмотров
schedule
29.09.2021
Иерархия типов набора данных Spark Scala
Попытка заставить классы, расширяющие W, иметь метод get, который возвращает набор данных подкласса WR.
abstract class WR
case class TGWR(
a: String,
b: String
) extends WR
abstract class W {
def get[T <: WR]():...
308 просмотров
schedule
04.10.2021
Spark DataFrame: найдите и установите основной корень для дочернего элемента
У меня есть следующий фрейм данных Apache Spark:
Родитель - Дочерний A1 - A10 A1 - A2 A2 - A3 A3 - A4 A5 - A7 A7 - A6 A8 - A9
Этот DataFrame отображает связь между родительским и дочерним...
734 просмотров
schedule
16.10.2021
Сохранение / обновление Spark scala cassandra
У меня есть набор данных Spark для объекта, который должен быть сохранен / обновлен в таблице cassandra с именем «предложение».
case class Offer(offer_id: String, metadata_last_modified_source_time: java.sql.Timestamp, product_type: String)
val...
135 просмотров
schedule
18.09.2021
Извлечение вложенных объектов в объект с помощью API набора данных в Spark
Я новичок в Spark, я пробую api набора данных и хотел бы знать, можно ли извлечь вложенные объекты в объект с помощью api набора данных. Например, скажем, у меня есть объект типа A и объект типа B, как показано ниже
case class A(a: String, b:...
51 просмотров
schedule
14.10.2021
почему Python DataFrames локализованы только на одном компьютере?
Я читаю искру исчерпывающее руководство , в котором говорится:
Python / R DataFrames существуют на одном компьютере, а не на нескольких машинах ... это ограничивает то, что вы можете делать с данным DataFrame, ресурсами, которые существуют на...
59 просмотров
schedule
08.10.2021
Apache Spark JOIN с динамическим повторным разделением
Я пытаюсь сделать довольно простое соединение двух таблиц, ничего сложного. Загрузите обе таблицы, выполните соединение и обновите столбцы, но он продолжает генерировать исключение.
Я заметил, что задача застревает на последнем разделе 199/200 и...
870 просмотров
schedule
20.02.2022
Как передать более одного столбца в качестве параметра в фрейм данных Spark
Я хочу передать более одного имени столбца в качестве параметра фрейму данных.
val readData = spark.sqlContext
.read.format("csv")
.option("delimiter",",")
.schema(Schema)
.load("emp.csv")
val...
61 просмотров
schedule
26.03.2022
Невозможно работать с нестандартным типом после его кодирования? Набор данных Spark
Скажем, у вас есть это (решение для кодирования нестандартного типа взято из этого потока ):
// assume we handle custom type
class MyObj(val i: Int, val j: String)
implicit val myObjEncoder = org.apache.spark.sql.Encoders.kryo[MyObj]
val ds =...
274 просмотров
schedule
01.04.2022
Я запускаю Spark с использованием кластера данных Google Cloud. Запись набора данных в GCS застревает с 1 незавершенной задачей, которая никогда не заканчивается
Я запускаю Spark с использованием кластера данных Google Cloud. При записи набора данных в ведро GCS (облачное хранилище Google) он поразил последний раздел, который никогда не заканчивается.
Он показывает, что выполнено 799/800 задач. Но...
38 просмотров
schedule
02.05.2022