Вопросы по теме 'apache-spark-dataset'

Выбор набора данных Spark с типизированным столбцом
Глядя на функцию select() в Spark DataSet, можно увидеть различные сгенерированные сигнатуры функций: (c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....) Кажется, это намекает на то, что я должен иметь возможность напрямую...
11650 просмотров

Spark 2.0 DataSets groupByKey и разделение операций и безопасность типов
Я очень доволен Spark 2.0 DataSets из-за безопасности типов во время компиляции. Но вот пара проблем, которые я не могу решить, я также не нашел для этого хорошей документации. Проблема №1 - операция разделения по агрегированному столбцу -...
6556 просмотров

поиск заменить с помощью Apache spark java
Постановка проблемы: Нам нужно заменить синонимы слов в строке на их эквивалентные слова (из большой коллекции списка синонимов ~ 40000 + пары ключевых значений) в большом наборе данных (50000 строк). Пример: Ввод Allen jeevi pramod...
1005 просмотров

Spark делает обмен разделами, которые уже правильно распределены
Я объединяю 2 набора данных двумя столбцами, и в результате получается набор данных, содержащий 55 миллиардов строк. После этого мне нужно выполнить некоторую агрегацию в этой DS по столбцам, отличным от тех, которые используются в соединении....
314 просмотров

Типизированное преобразование наборов данных с помощью mapPartitions
Я хочу выполнить типизированное преобразование, чтобы заменить все значения некоторых столбцов в наборе данных. Я знаю, что это возможно с помощью «select», но я хотел бы, чтобы возвращался полный набор данных с измененными значениями конкретных...
1160 просмотров

Spark: Как мне развернуть данные и добавить имя столбца также в pyspark или scala Spark?
Spark: я хочу разделить несколько столбцов и объединить их в один столбец с именем столбца в виде отдельной строки. Input data: +-----------+-----------+-----------+ | ASMT_ID | WORKER | LABOR |...
1349 просмотров

Каков эффективный способ заменить значение столбца Spark Dataset из sortedMap с помощью Scala?
Например, у меня SortedMap : key value ----------- aaa 1 bbb 2 ccc 3 И набор данных с 3 столбцами: col1 col2 col3 ------------------ zzz aaa w xxx ccc n sss bbb v Я хочу изменить значение...
153 просмотров

Spark-Xml: массив внутри массива в Dataframe для генерации XML
У меня есть требование создать XML, который имеет структуру ниже <parent> <name>parent</name <childs> <child> <name>child1</name> </child> <child>...
815 просмотров

Добавить одну строку из одного набора данных в другой набор данных в Spark Scala
Существует два набора DataFrame: один - «обучающий набор», другой - «тестовый набор». Я хочу выполнить итерацию некоторого алгоритма (назовем AAA, для которого требуется входной формат RDD), используя «Учебный набор плюс только одна строка тестового...
192 просмотров

Dataset.reduce не поддерживает функцию сокращения
У меня простой код: test("0153") { val c = Seq(1,8,4,2,7) val max = (x:Int, y:Int)=> if (x > y) x else y c.reduce(max) } Работает нормально. Но когда я использую Dataset.reduce так же, test("SparkSQLTest") { def max(x:...
134 просмотров

Получение значений из набора данных ‹Row› в файл .txt (с использованием Java)
Я здесь новенький, поэтому я надеюсь помочь вам, и мне помогут, если это будет возможно. Я сделал проект Apache Spark, используя Spark SQL и ML Spark на Java. Я закончил этот проект, но у меня проблемы с выводом. У меня есть Dataset<Row>...
1446 просмотров

Иерархия типов набора данных Spark Scala
Попытка заставить классы, расширяющие W, иметь метод get, который возвращает набор данных подкласса WR. abstract class WR case class TGWR( a: String, b: String ) extends WR abstract class W { def get[T <: WR]():...
308 просмотров

Spark DataFrame: найдите и установите основной корень для дочернего элемента
У меня есть следующий фрейм данных Apache Spark: Родитель - Дочерний A1 - A10 A1 - A2 A2 - A3 A3 - A4 A5 - A7 A7 - A6 A8 - A9 Этот DataFrame отображает связь между родительским и дочерним...
734 просмотров

Сохранение / обновление Spark scala cassandra
У меня есть набор данных Spark для объекта, который должен быть сохранен / обновлен в таблице cassandra с именем «предложение». case class Offer(offer_id: String, metadata_last_modified_source_time: java.sql.Timestamp, product_type: String) val...
135 просмотров

Извлечение вложенных объектов в объект с помощью API набора данных в Spark
Я новичок в Spark, я пробую api набора данных и хотел бы знать, можно ли извлечь вложенные объекты в объект с помощью api набора данных. Например, скажем, у меня есть объект типа A и объект типа B, как показано ниже case class A(a: String, b:...
51 просмотров
schedule 14.10.2021

почему Python DataFrames локализованы только на одном компьютере?
Я читаю искру исчерпывающее руководство , в котором говорится: Python / R DataFrames существуют на одном компьютере, а не на нескольких машинах ... это ограничивает то, что вы можете делать с данным DataFrame, ресурсами, которые существуют на...
59 просмотров

Apache Spark JOIN с динамическим повторным разделением
Я пытаюсь сделать довольно простое соединение двух таблиц, ничего сложного. Загрузите обе таблицы, выполните соединение и обновите столбцы, но он продолжает генерировать исключение. Я заметил, что задача застревает на последнем разделе 199/200 и...
870 просмотров

Как передать более одного столбца в качестве параметра в фрейм данных Spark
Я хочу передать более одного имени столбца в качестве параметра фрейму данных. val readData = spark.sqlContext .read.format("csv") .option("delimiter",",") .schema(Schema) .load("emp.csv") val...
61 просмотров

Невозможно работать с нестандартным типом после его кодирования? Набор данных Spark
Скажем, у вас есть это (решение для кодирования нестандартного типа взято из этого потока ): // assume we handle custom type class MyObj(val i: Int, val j: String) implicit val myObjEncoder = org.apache.spark.sql.Encoders.kryo[MyObj] val ds =...
274 просмотров

Я запускаю Spark с использованием кластера данных Google Cloud. Запись набора данных в GCS застревает с 1 незавершенной задачей, которая никогда не заканчивается
Я запускаю Spark с использованием кластера данных Google Cloud. При записи набора данных в ведро GCS (облачное хранилище Google) он поразил последний раздел, который никогда не заканчивается. Он показывает, что выполнено 799/800 задач. Но...
38 просмотров