Вопросы по теме 'apache-spark-ml'
Удаление вложенного столбца из Spark DataFrame
У меня DataFrame со схемой
root
|-- label: string (nullable = true)
|-- features: struct (nullable = true)
| |-- feat1: string (nullable = true)
| |-- feat2: string (nullable = true)
| |-- feat3: string (nullable = true)
Пока...
20444 просмотров
schedule
01.11.2021
Как я могу использовать метрику pyspark.mllib rdd api для измерения pyspark.ml (новый api фрейма данных)?
Старый API MlLib имеет класс метрики оценки: https://spark.apache.org/docs/latest/mllib-evaluation-metrics.html Однако в новом API фрейма данных НЕТ такого класса: https://spark.apache.org/docs/latest/ml-guide.html
У него есть класс Evaluator,...
101 просмотров
schedule
10.12.2021
Получить имена столбцов после columnSimilarties () Spark scala
Я пытаюсь создать модель совместной фильтрации на основе элементов с помощью columnSimilarities () в Spark. После использования columnsSimilarities () я хочу вернуть исходные имена столбцов результатам в Spark scala.
Запускаемый код для вычисления...
4320 просмотров
schedule
17.09.2021
Онлайн-обучение модели LDA в Spark
Есть ли способ обучить модель LDA в режиме онлайн-обучения, т.е. загрузить ранее созданную модель поезда и обновить ее новыми документами?
1561 просмотров
schedule
10.11.2021
Как интерпретировать столбец вероятности в прогнозировании искровой логистической регрессии?
Я получаю прогнозы через spark.ml.classification.LogisticRegressionModel.predict . Ряд строк имеют столбец prediction как 1.0 и столбец probability как .04 . model.getThreshold равно 0.5 , поэтому я предполагаю, что модель классифицирует...
3719 просмотров
schedule
05.10.2021
PySpark реверсирует StringIndexer во вложенном массиве
Я использую PySpark для совместной фильтрации с помощью ALS. Мои исходные идентификаторы пользователя и элемента являются строками, поэтому я использовал StringIndexer , чтобы преобразовать их в числовые индексы (модель ALS PySpark обязывает нас...
1871 просмотров
schedule
20.10.2021
Как преобразовать столбец фрейма данных Spark из массива [Int] в linalg.Vector?
У меня есть фрейм данных df, который выглядит так:
+--------+--------------------+
| user_id| is_following|
+--------+--------------------+
| 1|[2, 3, 4, 5, 6, 7] |
| 2|[20, 30, 40, 50] |
+--------+--------------------+...
3516 просмотров
schedule
22.10.2021
Как реализовать оценщик Kmeans в Spark ML
Я хочу выбрать модель k-средних с точки зрения параметра «k» на основе самой низкой оценки k-средних.
Я могу найти оптимальное значение параметра k вручную, написав что-то вроде
def clusteringScore0(data: DataFrame, k: Int): Double = {
val...
2977 просмотров
schedule
22.10.2021
Как с помощью Apache Spark ML преобразовать (для прогнозов) набор данных, у которого нет метки?
Я уверен, что у меня возник пробел в моем понимании конвейеров Spark ML.
У меня есть конвейер, который тренируется по набору данных со схемой «метка», «комментарий» (обе строки). Мой конвейер преобразует «метку», добавляя «indexedLabel», и...
134 просмотров
schedule
09.11.2021
Метрики оценки в задаче мультиклассовой классификации Spark ML
Я ищу пример классификации Multiclass с использованием Spark-Scala, но пока не могу его найти. В частности, я хочу обучить модель классификации и увидеть все связанные метрики по обучающим и тестовым данным.
Поддерживает ли Spark ML (API на основе...
1879 просмотров
schedule
04.09.2021
Отсутствие сводки моделей для GLM в Pyspark / SparkML
В данный момент я знакомлюсь с Pyspark и SparkML . Для этого я использую титанический набор данных, чтобы обучить GLM предсказывать «стоимость проезда» в этом наборе данных.
Я внимательно слежу за документацией Spark. У меня есть рабочая...
360 просмотров
schedule
25.09.2021
VectorAssembler не работает с java.util.NoSuchElementException: Param handleInvalid не существует
При преобразовании конвейера машинного обучения, в котором используется VectorAssembler, возникает ошибка «Param handleInvalid не существует». Почему это происходит? Я что-то упускаю? Я новичок в PySpark.
Я использую это в соответствии с кодом...
641 просмотров
schedule
08.10.2021
PySpark Array ‹double› не является массивом ‹double›
Я запускаю очень простой сценарий ML Spark (2.4.0 на Databricks):
from pyspark.ml.clustering import LDA
lda = LDA(k=10, maxIter=100).setFeaturesCol('features')
model = lda.fit(dataset)
Но получил следующую ошибку:...
3196 просмотров
schedule
28.02.2022
(Массив/вектор ML/вектор MLlib) RDD в столбец векторного фрейма данных ML
Мне нужно преобразовать RDD в один столбец o.a.s.ml.linalg.Vector DataFrame, чтобы использовать алгоритмы ML, в частности K-Means для этого случая. Это мой РДД:
val parsedData = sc.textFile("/digits480x.csv").map(s =>...
1379 просмотров
schedule
05.03.2022
Преобразование строки формата libsvm (поле1: значение, поле2: значение) в DenseVector значений
У меня есть столбец в формате libsvm (библиотека искры ml) field1:value field2:value ...
+--------------+-----+
| features|label|
+--------------+-----+
| a:1 b:2 c:3| 0|
| a:4 b:5 c:6| 0|
| a:7 b:8 c:9| 1|
|a:10 b:11 c:12|...
227 просмотров
schedule
02.04.2022
PySpark ML: получение статистики кластера KMeans
Я построил модель KMeansModel. Мои результаты хранятся в фрейме данных PySpark под названием transformed .
(а) Как интерпретировать содержимое transformed ?
(b) Как мне создать один или несколько Pandas DataFrame из transformed , которые...
3345 просмотров
schedule
03.05.2022
Прикрепить метаданные к векторному столбцу в Spark
Контекст: у меня есть фрейм данных с двумя столбцами: метка и функции.
org.apache.spark.sql.DataFrame = [label: int, features: vector]
Где features — это mllib.linalg.VectorUDT числового типа, созданный с помощью VectorAssembler....
4379 просмотров
schedule
07.06.2022
Как визуализировать модель/объект дерева решений в pyspark?
Есть ли способ визуализировать/построить дерево решений, созданное с использованием библиотеки mllib или ml в pyspark. Также как получить такую информацию, как количество записей в листовых узлах. Спасибо
2635 просмотров
schedule
08.06.2022
org.apache.spark.SparkException: задание прервано из-за сбоя этапа в pyspark
Извините за дублированный пост. Я снова создаю еще один пост, так как эти посты не могут решить мою проблему. Я запускаю регрессию ML на pyspark 3.0.1. Я запускаю его в кластере с 640 ГБ памяти и 32 рабочими узлами. У меня есть набор данных с...
69 просмотров
schedule
08.06.2022
Конвейер Spark, объединяющий преобразователи VectorAssembler и HashingTF
Давайте определим конвейер Spark, который собирает вместе несколько столбцов, а затем применяет хэширование функций:
val df = sqlContext.createDataFrame(Seq((0.0, 1.0, 2.0), (3.0, 4.0, 5.0))).toDF("colx", "coly", "colz")
val va = new...
655 просмотров
schedule
16.06.2022