Статьи по теме apache-spark-ml [apache-spark, dataframe, apache-spark-sql, scala, apache-spark-ml]

Вопросы по теме 'apache-spark-ml'

Удаление вложенного столбца из Spark DataFrame

20444 просмотров

01.11.2021

Как я могу использовать метрику pyspark.mllib rdd api для измерения pyspark.ml (новый api фрейма данных)?

Старый API MlLib имеет класс метрики оценки: https://spark.apache.org/docs/latest/mllib-evaluation-metrics.html Однако в новом API фрейма данных НЕТ такого класса: https://spark.apache.org/docs/latest/ml-guide.html У него есть класс Evaluator,...

101 просмотров

pyspark apache-spark-mllib apache-spark-ml

10.12.2021

Получить имена столбцов после columnSimilarties () Spark scala

Я пытаюсь создать модель совместной фильтрации на основе элементов с помощью columnSimilarities () в Spark. После использования columnsSimilarities () я хочу вернуть исходные имена столбцов результатам в Spark scala. Запускаемый код для вычисления...

4320 просмотров

apache-spark apache-spark-sql scala apache-spark-mllib apache-spark-ml

17.09.2021

Онлайн-обучение модели LDA в Spark

Есть ли способ обучить модель LDA в режиме онлайн-обучения, т.е. загрузить ранее созданную модель поезда и обновить ее новыми документами?

1561 просмотров

machine-learning apache-spark apache-spark-mllib apache-spark-ml lda

10.11.2021

Как интерпретировать столбец вероятности в прогнозировании искровой логистической регрессии?

Я получаю прогнозы через spark.ml.classification.LogisticRegressionModel.predict . Ряд строк имеют столбец prediction как 1.0 и столбец probability как .04 . model.getThreshold равно 0.5 , поэтому я предполагаю, что модель классифицирует...

3719 просмотров

machine-learning apache-spark apache-spark-sql apache-spark-ml logistic-regression

05.10.2021

PySpark реверсирует StringIndexer во вложенном массиве

Я использую PySpark для совместной фильтрации с помощью ALS. Мои исходные идентификаторы пользователя и элемента являются строками, поэтому я использовал StringIndexer , чтобы преобразовать их в числовые индексы (модель ALS PySpark обязывает нас...

1871 просмотров

python apache-spark pyspark apache-spark-sql apache-spark-ml

20.10.2021

Как преобразовать столбец фрейма данных Spark из массива [Int] в linalg.Vector?

У меня есть фрейм данных df, который выглядит так: +--------+--------------------+ | user_id| is_following| +--------+--------------------+ | 1|[2, 3, 4, 5, 6, 7] | | 2|[20, 30, 40, 50] | +--------+--------------------+...

3516 просмотров

apache-spark scala apache-spark-ml spark-dataframe

22.10.2021

Как реализовать оценщик Kmeans в Spark ML

Я хочу выбрать модель k-средних с точки зрения параметра «k» на основе самой низкой оценки k-средних. Я могу найти оптимальное значение параметра k вручную, написав что-то вроде def clusteringScore0(data: DataFrame, k: Int): Double = { val...

2977 просмотров

apache-spark scala apache-spark-mllib apache-spark-ml k-means

22.10.2021

Как с помощью Apache Spark ML преобразовать (для прогнозов) набор данных, у которого нет метки?

Я уверен, что у меня возник пробел в моем понимании конвейеров Spark ML. У меня есть конвейер, который тренируется по набору данных со схемой «метка», «комментарий» (обе строки). Мой конвейер преобразует «метку», добавляя «indexedLabel», и...

134 просмотров

apache-spark apache-spark-mllib apache-spark-ml

09.11.2021

Метрики оценки в задаче мультиклассовой классификации Spark ML

Я ищу пример классификации Multiclass с использованием Spark-Scala, но пока не могу его найти. В частности, я хочу обучить модель классификации и увидеть все связанные метрики по обучающим и тестовым данным. Поддерживает ли Spark ML (API на основе...

1879 просмотров

apache-spark-ml

04.09.2021

Отсутствие сводки моделей для GLM в Pyspark / SparkML

В данный момент я знакомлюсь с Pyspark и SparkML . Для этого я использую титанический набор данных, чтобы обучить GLM предсказывать «стоимость проезда» в этом наборе данных. Я внимательно слежу за документацией Spark. У меня есть рабочая...

360 просмотров

pyspark apache-spark-ml

25.09.2021

VectorAssembler не работает с java.util.NoSuchElementException: Param handleInvalid не существует

При преобразовании конвейера машинного обучения, в котором используется VectorAssembler, возникает ошибка «Param handleInvalid не существует». Почему это происходит? Я что-то упускаю? Я новичок в PySpark. Я использую это в соответствии с кодом...

641 просмотров

apache-spark pyspark apache-spark-mllib apache-spark-ml apache-spark-2.0

08.10.2021

PySpark Array ‹double› не является массивом ‹double›

Я запускаю очень простой сценарий ML Spark (2.4.0 на Databricks): from pyspark.ml.clustering import LDA lda = LDA(k=10, maxIter=100).setFeaturesCol('features') model = lda.fit(dataset) Но получил следующую ошибку:...

3196 просмотров

apache-spark pyspark apache-spark-ml

28.02.2022

(Массив/вектор ML/вектор MLlib) RDD в столбец векторного фрейма данных ML

Мне нужно преобразовать RDD в один столбец o.a.s.ml.linalg.Vector DataFrame, чтобы использовать алгоритмы ML, в частности K-Means для этого случая. Это мой РДД: val parsedData = sc.textFile("/digits480x.csv").map(s =>...

1379 просмотров

apache-spark apache-spark-sql scala apache-spark-mllib apache-spark-ml

05.03.2022

Преобразование строки формата libsvm (поле1: значение, поле2: значение) в DenseVector значений

У меня есть столбец в формате libsvm (библиотека искры ml) field1:value field2:value ... +--------------+-----+ | features|label| +--------------+-----+ | a:1 b:2 c:3| 0| | a:4 b:5 c:6| 0| | a:7 b:8 c:9| 1| |a:10 b:11 c:12|...

227 просмотров

apache-spark pyspark apache-spark-sql apache-spark-ml pyspark-sql

02.04.2022

PySpark ML: получение статистики кластера KMeans

Я построил модель KMeansModel. Мои результаты хранятся в фрейме данных PySpark под названием transformed . (а) Как интерпретировать содержимое transformed ? (b) Как мне создать один или несколько Pandas DataFrame из transformed , которые...

3345 просмотров

machine-learning pyspark cluster-analysis apache-spark-ml k-means

03.05.2022

Прикрепить метаданные к векторному столбцу в Spark

Контекст: у меня есть фрейм данных с двумя столбцами: метка и функции. org.apache.spark.sql.DataFrame = [label: int, features: vector] Где features — это mllib.linalg.VectorUDT числового типа, созданный с помощью VectorAssembler....

4379 просмотров

apache-spark scala apache-spark-mllib apache-spark-ml

07.06.2022

Как визуализировать модель/объект дерева решений в pyspark?

Есть ли способ визуализировать/построить дерево решений, созданное с использованием библиотеки mllib или ml в pyspark. Также как получить такую информацию, как количество записей в листовых узлах. Спасибо

2635 просмотров

pyspark apache-spark-mllib apache-spark-ml decision-tree

08.06.2022

org.apache.spark.SparkException: задание прервано из-за сбоя этапа в pyspark

Извините за дублированный пост. Я снова создаю еще один пост, так как эти посты не могут решить мою проблему. Я запускаю регрессию ML на pyspark 3.0.1. Я запускаю его в кластере с 640 ГБ памяти и 32 рабочими узлами. У меня есть набор данных с...

69 просмотров

apache-spark pyspark apache-spark-ml

08.06.2022

Конвейер Spark, объединяющий преобразователи VectorAssembler и HashingTF

Давайте определим конвейер Spark, который собирает вместе несколько столбцов, а затем применяет хэширование функций: val df = sqlContext.createDataFrame(Seq((0.0, 1.0, 2.0), (3.0, 4.0, 5.0))).toDF("colx", "coly", "colz") val va = new...

655 просмотров

apache-spark apache-spark-sql apache-spark-ml

16.06.2022