Вопросы по теме 'sklearn-pandas'

В чем разница между sklearn Pipeline и DataFrameMapper?
Конвейер Sklearn: http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html DataFrameMapper: https://github.com/paulgb/sklearn-pandas В чем разница между ними? Мне кажется, что у конвейера sklearn больше...
7540 просмотров
schedule 18.11.2021

Есть ли способ импортировать файл pmml в Python?
Я обучил модель с помощью sklearn и экспортировал ее в формат pmml с помощью sklearn2pmml. Есть ли способ преобразовать этот файл pmml обратно во что-то, что можно импортировать и запускать в python? Причина, по которой я хочу это сделать,...
4397 просмотров
schedule 08.10.2021

Склеарн: категорический импьютер?
Есть ли способ присвоить категориальные значения с помощью объекта sklearn.preprocessing? Я хотел бы в конечном итоге создать объект предварительной обработки, который я могу применить к новым данным и преобразовать его так же, как и старые данные....
7981 просмотров

Как добавить границу к фигуре (набору данных) с помощью matplotlib и алгоритма SVM?
Мой код: import matplotlib.pyplot as plt import pandas as pd data = pd.read_csv('data/data.csv') X = data[['x1','x2']] y = data['y'] from sklearn.svm import SVC classifier = SVC() classifier.fit(X,y) plt.scatter(data['x1'], data['x2'], c=y,...
246 просмотров

Извлечь путь правила точки данных через дерево решений с помощью sklearn python
Я использую модель дерева решений и хочу извлечь путь решения для каждой точки данных, чтобы понять, что вызвало Y, а не предсказывать его. Как я могу это сделать? Не удалось найти никакой документации.
2855 просмотров
schedule 01.12.2021

Как убедиться, что одна функция включена во все деревья в случайном лесу
В настоящее время я использую sklearn для создания классификатора случайного леса, но я хочу убедиться, что одна конкретная функция, которая, на мой взгляд, является наиболее важной, будет включена во все сгенерированные деревья решений. Как это...
64 просмотров
schedule 04.10.2021

Итерация по всему фрейму данных Pandas с использованием столбца и строки в качестве аргументов
У меня есть этот пустой фрейм данных pandas и значение функции (x, y), которое принимает 2 аргумента, номер строки и номер столбца точки в фрейме данных pandas. Мне было интересно, есть ли более простой способ перебрать весь пустой фрейм данных с...
86 просмотров

преобразователь scikit-learn, который собирает данные на основе заданных пользователем точек отсечения
Я пытаюсь включить преобразователь в конвейер scikit-learn, который будет разбивать непрерывный столбец данных на 4 значения на основе моих собственных предоставленных точек отсечения. Текущие аргументы для KBinsDiscretizer не работают в основном...
577 просмотров

Как нормализовать список из более чем 25 миллионов записей с помощью fit_transform из MinMaxScaler
У меня есть список из более чем 25 миллионов записей (1D Array). Я хочу нормализовать значения от 0 до 5. Для этого я использую MinMaxScaler от scikit-learn. Эта штука отлично работает с записями размером до 20 Мбайт, но по мере увеличения...
81 просмотров

ValueError в Sklearn
Я собрал следующую функцию, которая читает csv, обучает модель и предсказывает данные запроса. У меня есть следующая ValueError: порядок столбцов должен быть одинаковым для соответствия и для преобразования при использовании ключевого слова Остаток...
84 просмотров

sklearn OneHotEncoder с ColumnTransformer, что приводит к разреженной матрице вместо создания манекенов
Я пытаюсь преобразовать категориальное значение в целое число с помощью OneHotEncoder и ColumnTransformer. Насколько я понимаю, он должен создавать манекены для столбцов категорий, таких как pd.get_dummies. В моем файле ~ 1500 записей и 10 столбцов....
182 просмотров

ValueError: неправильная форма ввода (560, 5) sklearn
Начинаю писать модель обучающей машины. У меня есть набор данных Y_train, содержащий метки, есть 5 классов. Набор данных X_train содержит образцы. Я пытаюсь построить свою модель с помощью логистической регрессии. shape: X_train ((560, 20531)) и...
35 просмотров

Ошибка при попытке импортировать модули sklearn: ImportError: ошибка загрузки DLL: указанный модуль не может быть найден
Я попытался выполнить следующие операции импорта для проекта машинного обучения: from sklearn import preprocessing, cross_validation, svm from sklearn.linear_model import LinearRegression Я получил это сообщение об ошибке: Traceback (most...
20429 просмотров

Как после запуска модели сохранить лес изоляции и локальный фактор выброса как две разные модели?
Я пытался написать программу машинного обучения для обнаружения мошенничества с кредитными картами с использованием методов Isolation Forest и Local Outlier Factor из sklearn и pandas . У меня есть код, работающий и делающий прогнозы, но я не...
398 просмотров

Ошибка при установке scipy в PyCharm?
Я получаю следующую ошибку при попытке установить scipy в PyCharm 3.2: Сбор scipy с использованием кешированного scipy-0.19.0.zip Установка собранных пакетов: scipy Запуск setup.py install для scipy: запущен Запуск setup.py install для scipy:...
1168 просмотров
schedule 01.05.2022

MinMax Scaler в sklearn не нормализует значения столбца между 0 и 1
Я работаю над алгоритмом KNN на python и пытался нормализовать свои кадры данных с помощью MinMaxScaler, чтобы преобразовать данные в диапазоне от 0 до 1. Однако, когда я возвращаю результат, я вижу, что в каком-то столбце min / max вывод превышает...
1479 просмотров
schedule 18.05.2022

Используя линейную регрессию sklearn, как я могу ограничить вычисленные коэффициенты регрессии больше 0?
Я использую ссылку для sklearn здесь http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html , но нет возможности ограничить коэффициенты регрессии. Кто-нибудь знает другой пакет на python для выполнения...
1209 просмотров

Пользовательский агрегатный расчет Pyspark по столбцам
Я готовлю данные для ввода для классификатора в Pyspark. Я использовал агрегатные функции в SparkSQL для извлечения таких функций, как среднее значение и дисперсия. Они сгруппированы по активности, имени и окну. Окно было рассчитано путем деления...
2853 просмотров

Прогнозируемый класс вместе с соответствующей вероятностью
Я построил модель машинного обучения с использованием классификатора maxvoting (дерево решений, случайный лес, логистическая регрессия). Для чего у меня есть вход как {"Заработная плата": 50000, "Текущие займы": 15000, "Кредитный рейтинг": 616,...
238 просмотров

Sklearn-Pandas DataFrameMapper: mapper.fit_transform дает ValueError: неправильную форму ввода (8, 2)
Мне удалось воспроизвести пример, приведенный в репозитории Github . Однако когда я попробовал это на своих данных, у меня возникла ошибка ValueError. Ниже приведены фиктивные данные, которые дают ту же ошибку, что и мои настоящие данные....
2340 просмотров
schedule 11.06.2022