Статьи по теме apache-spark-dataset

Вопросы по теме 'apache-spark-dataset'

Выбор набора данных Spark с типизированным столбцом

Глядя на функцию select() в Spark DataSet, можно увидеть различные сгенерированные сигнатуры функций: (c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....) Кажется, это намекает на то, что я должен иметь возможность напрямую...

11650 просмотров

apache-spark scala apache-spark-dataset

13.10.2021

Spark 2.0 DataSets groupByKey и разделение операций и безопасность типов

Я очень доволен Spark 2.0 DataSets из-за безопасности типов во время компиляции. Но вот пара проблем, которые я не могу решить, я также не нашел для этого хорошей документации. Проблема №1 - операция разделения по агрегированному столбцу -...

6556 просмотров

apache-spark apache-spark-sql scala apache-spark-dataset

24.09.2021

поиск заменить с помощью Apache spark java

Постановка проблемы: Нам нужно заменить синонимы слов в строке на их эквивалентные слова (из большой коллекции списка синонимов ~ 40000 + пары ключевых значений) в большом наборе данных (50000 строк). Пример: Ввод Allen jeevi pramod...

1005 просмотров

apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0 spark-dataframe

30.09.2021

Spark делает обмен разделами, которые уже правильно распределены

Я объединяю 2 набора данных двумя столбцами, и в результате получается набор данных, содержащий 55 миллиардов строк. После этого мне нужно выполнить некоторую агрегацию в этой DS по столбцам, отличным от тех, которые используются в соединении....

314 просмотров

apache-spark databricks apache-spark-sql apache-spark-dataset spark-dataframe

02.11.2021

Типизированное преобразование наборов данных с помощью mapPartitions

Я хочу выполнить типизированное преобразование, чтобы заменить все значения некоторых столбцов в наборе данных. Я знаю, что это возможно с помощью «select», но я хотел бы, чтобы возвращался полный набор данных с измененными значениями конкретных...

1160 просмотров

scala apache-spark-dataset spark-dataframe

26.09.2021

Spark: Как мне развернуть данные и добавить имя столбца также в pyspark или scala Spark?

Spark: я хочу разделить несколько столбцов и объединить их в один столбец с именем столбца в виде отдельной строки. Input data: +-----------+-----------+-----------+ | ASMT_ID | WORKER | LABOR |...

1349 просмотров

apache-spark apache-spark-sql apache-spark-dataset spark-dataframe

10.09.2021

Каков эффективный способ заменить значение столбца Spark Dataset из sortedMap с помощью Scala?

Например, у меня SortedMap : key value ----------- aaa 1 bbb 2 ccc 3 И набор данных с 3 столбцами: col1 col2 col3 ------------------ zzz aaa w xxx ccc n sss bbb v Я хочу изменить значение...

153 просмотров

apache-spark apache-spark-sql apache-spark-dataset

16.11.2021

Spark-Xml: массив внутри массива в Dataframe для генерации XML

У меня есть требование создать XML, который имеет структуру ниже <parent> <name>parent</name <childs> <child> <name>child1</name> </child> <child>...

815 просмотров

apache-spark apache-spark-sql apache-spark-dataset apache-spark-xml spark-dataframe

24.11.2021

Добавить одну строку из одного набора данных в другой набор данных в Spark Scala

Существует два набора DataFrame: один - «обучающий набор», другой - «тестовый набор». Я хочу выполнить итерацию некоторого алгоритма (назовем AAA, для которого требуется входной формат RDD), используя «Учебный набор плюс только одна строка тестового...

192 просмотров

apache-spark scala apache-spark-mllib apache-spark-dataset

28.10.2021

Dataset.reduce не поддерживает функцию сокращения

У меня простой код: test("0153") { val c = Seq(1,8,4,2,7) val max = (x:Int, y:Int)=> if (x > y) x else y c.reduce(max) } Работает нормально. Но когда я использую Dataset.reduce так же, test("SparkSQLTest") { def max(x:...

134 просмотров

apache-spark apache-spark-sql scala apache-spark-dataset

07.10.2021

Получение значений из набора данных ‹Row› в файл .txt (с использованием Java)

Я здесь новенький, поэтому я надеюсь помочь вам, и мне помогут, если это будет возможно. Я сделал проект Apache Spark, используя Spark SQL и ML Spark на Java. Я закончил этот проект, но у меня проблемы с выводом. У меня есть Dataset<Row>...

1446 просмотров

java apache-spark apache-spark-sql bigdata apache-spark-dataset

29.09.2021

Иерархия типов набора данных Spark Scala

Попытка заставить классы, расширяющие W, иметь метод get, который возвращает набор данных подкласса WR. abstract class WR case class TGWR( a: String, b: String ) extends WR abstract class W { def get[T <: WR]():...

308 просмотров

apache-spark scala apache-spark-dataset apache-spark-encoders

04.10.2021

Spark DataFrame: найдите и установите основной корень для дочернего элемента

У меня есть следующий фрейм данных Apache Spark: Родитель - Дочерний A1 - A10 A1 - A2 A2 - A3 A3 - A4 A5 - A7 A7 - A6 A8 - A9 Этот DataFrame отображает связь между родительским и дочерним...

734 просмотров

apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0

16.10.2021

Сохранение / обновление Spark scala cassandra

У меня есть набор данных Spark для объекта, который должен быть сохранен / обновлен в таблице cassandra с именем «предложение». case class Offer(offer_id: String, metadata_last_modified_source_time: java.sql.Timestamp, product_type: String) val...

135 просмотров

cassandra timestamp scala save apache-spark-dataset

18.09.2021

Извлечение вложенных объектов в объект с помощью API набора данных в Spark

Я новичок в Spark, я пробую api набора данных и хотел бы знать, можно ли извлечь вложенные объекты в объект с помощью api набора данных. Например, скажем, у меня есть объект типа A и объект типа B, как показано ниже case class A(a: String, b:...

51 просмотров

apache-spark apache-spark-dataset

14.10.2021

почему Python DataFrames локализованы только на одном компьютере?

Я читаю искру исчерпывающее руководство , в котором говорится: Python / R DataFrames существуют на одном компьютере, а не на нескольких машинах ... это ограничивает то, что вы можете делать с данным DataFrame, ресурсами, которые существуют на...

59 просмотров

python apache-spark pyspark dataframe apache-spark-dataset

08.10.2021

Apache Spark JOIN с динамическим повторным разделением

Я пытаюсь сделать довольно простое соединение двух таблиц, ничего сложного. Загрузите обе таблицы, выполните соединение и обновите столбцы, но он продолжает генерировать исключение. Я заметил, что задача застревает на последнем разделе 199/200 и...

870 просмотров

apache-spark apache-spark-sql scala apache-spark-dataset apache-spark-2.0

20.02.2022

Как передать более одного столбца в качестве параметра в фрейм данных Spark

Я хочу передать более одного имени столбца в качестве параметра фрейму данных. val readData = spark.sqlContext .read.format("csv") .option("delimiter",",") .schema(Schema) .load("emp.csv") val...

61 просмотров

apache-spark apache-spark-sql apache-spark-dataset

26.03.2022

Невозможно работать с нестандартным типом после его кодирования? Набор данных Spark

Скажем, у вас есть это (решение для кодирования нестандартного типа взято из этого потока ): // assume we handle custom type class MyObj(val i: Int, val j: String) implicit val myObjEncoder = org.apache.spark.sql.Encoders.kryo[MyObj] val ds =...

274 просмотров

apache-spark apache-spark-dataset kryo apache-spark-encoders

01.04.2022

Я запускаю Spark с использованием кластера данных Google Cloud. Запись набора данных в GCS застревает с 1 незавершенной задачей, которая никогда не заканчивается

Я запускаю Spark с использованием кластера данных Google Cloud. При записи набора данных в ведро GCS (облачное хранилище Google) он поразил последний раздел, который никогда не заканчивается. Он показывает, что выполнено 799/800 задач. Но...

38 просмотров

google-cloud-dataproc apache-spark apache-spark-dataset

02.05.2022