Вопросы по теме 'apache-spark-ml'

Удаление вложенного столбца из Spark DataFrame
У меня DataFrame со схемой root |-- label: string (nullable = true) |-- features: struct (nullable = true) | |-- feat1: string (nullable = true) | |-- feat2: string (nullable = true) | |-- feat3: string (nullable = true) Пока...
20444 просмотров

Как я могу использовать метрику pyspark.mllib rdd api для измерения pyspark.ml (новый api фрейма данных)?
Старый API MlLib имеет класс метрики оценки: https://spark.apache.org/docs/latest/mllib-evaluation-metrics.html Однако в новом API фрейма данных НЕТ такого класса: https://spark.apache.org/docs/latest/ml-guide.html У него есть класс Evaluator,...
101 просмотров

Получить имена столбцов после columnSimilarties () Spark scala
Я пытаюсь создать модель совместной фильтрации на основе элементов с помощью columnSimilarities () в Spark. После использования columnsSimilarities () я хочу вернуть исходные имена столбцов результатам в Spark scala. Запускаемый код для вычисления...
4320 просмотров

Онлайн-обучение модели LDA в Spark
Есть ли способ обучить модель LDA в режиме онлайн-обучения, т.е. загрузить ранее созданную модель поезда и обновить ее новыми документами?
1561 просмотров

Как интерпретировать столбец вероятности в прогнозировании искровой логистической регрессии?
Я получаю прогнозы через spark.ml.classification.LogisticRegressionModel.predict . Ряд строк имеют столбец prediction как 1.0 и столбец probability как .04 . model.getThreshold равно 0.5 , поэтому я предполагаю, что модель классифицирует...
3719 просмотров

PySpark реверсирует StringIndexer во вложенном массиве
Я использую PySpark для совместной фильтрации с помощью ALS. Мои исходные идентификаторы пользователя и элемента являются строками, поэтому я использовал StringIndexer , чтобы преобразовать их в числовые индексы (модель ALS PySpark обязывает нас...
1871 просмотров

Как преобразовать столбец фрейма данных Spark из массива [Int] в linalg.Vector?
У меня есть фрейм данных df, который выглядит так: +--------+--------------------+ | user_id| is_following| +--------+--------------------+ | 1|[2, 3, 4, 5, 6, 7] | | 2|[20, 30, 40, 50] | +--------+--------------------+...
3516 просмотров

Как реализовать оценщик Kmeans в Spark ML
Я хочу выбрать модель k-средних с точки зрения параметра «k» на основе самой низкой оценки k-средних. Я могу найти оптимальное значение параметра k вручную, написав что-то вроде def clusteringScore0(data: DataFrame, k: Int): Double = { val...
2977 просмотров

Как с помощью Apache Spark ML преобразовать (для прогнозов) набор данных, у которого нет метки?
Я уверен, что у меня возник пробел в моем понимании конвейеров Spark ML. У меня есть конвейер, который тренируется по набору данных со схемой «метка», «комментарий» (обе строки). Мой конвейер преобразует «метку», добавляя «indexedLabel», и...
134 просмотров

Метрики оценки в задаче мультиклассовой классификации Spark ML
Я ищу пример классификации Multiclass с использованием Spark-Scala, но пока не могу его найти. В частности, я хочу обучить модель классификации и увидеть все связанные метрики по обучающим и тестовым данным. Поддерживает ли Spark ML (API на основе...
1879 просмотров
schedule 04.09.2021

Отсутствие сводки моделей для GLM в Pyspark / SparkML
В данный момент я знакомлюсь с Pyspark и SparkML . Для этого я использую титанический набор данных, чтобы обучить GLM предсказывать «стоимость проезда» в этом наборе данных. Я внимательно слежу за документацией Spark. У меня есть рабочая...
360 просмотров
schedule 25.09.2021

VectorAssembler не работает с java.util.NoSuchElementException: Param handleInvalid не существует
При преобразовании конвейера машинного обучения, в котором используется VectorAssembler, возникает ошибка «Param handleInvalid не существует». Почему это происходит? Я что-то упускаю? Я новичок в PySpark. Я использую это в соответствии с кодом...
641 просмотров

PySpark Array ‹double› не является массивом ‹double›
Я запускаю очень простой сценарий ML Spark (2.4.0 на Databricks): from pyspark.ml.clustering import LDA lda = LDA(k=10, maxIter=100).setFeaturesCol('features') model = lda.fit(dataset) Но получил следующую ошибку:...
3196 просмотров
schedule 28.02.2022

(Массив/вектор ML/вектор MLlib) RDD в столбец векторного фрейма данных ML
Мне нужно преобразовать RDD в один столбец o.a.s.ml.linalg.Vector DataFrame, чтобы использовать алгоритмы ML, в частности K-Means для этого случая. Это мой РДД: val parsedData = sc.textFile("/digits480x.csv").map(s =>...
1379 просмотров

Преобразование строки формата libsvm (поле1: значение, поле2: значение) в DenseVector значений
У меня есть столбец в формате libsvm (библиотека искры ml) field1:value field2:value ... +--------------+-----+ | features|label| +--------------+-----+ | a:1 b:2 c:3| 0| | a:4 b:5 c:6| 0| | a:7 b:8 c:9| 1| |a:10 b:11 c:12|...
227 просмотров

PySpark ML: получение статистики кластера KMeans
Я построил модель KMeansModel. Мои результаты хранятся в фрейме данных PySpark под названием transformed . (а) Как интерпретировать содержимое transformed ? (b) Как мне создать один или несколько Pandas DataFrame из transformed , которые...
3345 просмотров

Прикрепить метаданные к векторному столбцу в Spark
Контекст: у меня есть фрейм данных с двумя столбцами: метка и функции. org.apache.spark.sql.DataFrame = [label: int, features: vector] Где features — это mllib.linalg.VectorUDT числового типа, созданный с помощью VectorAssembler....
4379 просмотров

Как визуализировать модель/объект дерева решений в pyspark?
Есть ли способ визуализировать/построить дерево решений, созданное с использованием библиотеки mllib или ml в pyspark. Также как получить такую ​​информацию, как количество записей в листовых узлах. Спасибо
2635 просмотров

org.apache.spark.SparkException: задание прервано из-за сбоя этапа в pyspark
Извините за дублированный пост. Я снова создаю еще один пост, так как эти посты не могут решить мою проблему. Я запускаю регрессию ML на pyspark 3.0.1. Я запускаю его в кластере с 640 ГБ памяти и 32 рабочими узлами. У меня есть набор данных с...
69 просмотров
schedule 08.06.2022

Конвейер Spark, объединяющий преобразователи VectorAssembler и HashingTF
Давайте определим конвейер Spark, который собирает вместе несколько столбцов, а затем применяет хэширование функций: val df = sqlContext.createDataFrame(Seq((0.0, 1.0, 2.0), (3.0, 4.0, 5.0))).toDF("colx", "coly", "colz") val va = new...
655 просмотров