Статьи по теме oversampling

Публикации по теме 'oversampling'

Обработка несбалансированного набора данных

(Наряду с реализацией на Python!) Давайте возьмем пример набора данных «Пациент с раком», в котором мы проверяем, болен ли человек раком, на основе входных характеристик. Предположим, что в нашем наборе данных есть 1000 записей, из которых 900 - больные раком, а остальные 100 - данные пациентов, не страдающих раком. Таким образом, это явно пример набора данных о дисбалансе, поскольку у нас больше строк с людьми, больными раком, чем с людьми без рака. Поэтому, если мы обучим наши..

Передискретизация и недискретизация: ADASYN против ENN

Как повысить производительность модели машинного обучения по сравнению с несбалансированными наборами данных. Введение Одна из наиболее распространенных трудностей, с которыми я столкнулся как специалист по машинному обучению, - это дисбаланс классов в задачах классификации. Это хорошо известная проблема, и существует множество подходов к ее решению, как описано в сообщении моего коллеги , но, безусловно, наиболее часто используемыми и простыми из них являются методы повторной..

Вопросы по теме 'oversampling'

Как передискретизировать текст (несбалансированные группы) в конвейере?

Я пытаюсь выполнить некоторую классификацию текста с помощью MultinomialNB, но у меня возникают проблемы, потому что мои данные несбалансированы. (Ниже для простоты приведены некоторые примеры данных. На самом деле мои данные намного больше.) Я...

1724 просмотров

14.03.2022

Передискретизация или SMOTE в Pyspark

У меня 7 классов, общее количество записей 115, и я хотел запустить модель случайного леса по этим данным. Но ведь данных недостаточно для получения высокой точности. Поэтому я хотел применить передискретизацию ко всем классам таким образом, чтобы...

7640 просмотров

machine-learning pyspark random-forest oversampling

09.04.2022

SMOTE для балансировки более 200 классов в R

У меня есть набор данных из двух столбцов (функция и класс) с более чем 200 классами, к которым должны быть классифицированы входные функции. Встречаемость классов колеблется от 1 до нескольких тысяч для некоторых классов. Столбец функций содержит...

1641 просмотров

r resampling oversampling

18.03.2023

Есть ли пакет или функция, которые могут выполнять SMOTE с непрерывными и категориальными функциями?

У меня есть несбалансированный набор данных с категориальной зависимой переменной и характеристическими переменными, которые являются непрерывными и категориальными. Я знаю, что функция SMOTE из пакета DMwR может обрабатывать только непрерывные...

1783 просмотров

r classification resampling oversampling

13.02.2023

Функция перекрестной проверки и передискретизации (SMOTE)

Я написал приведенный ниже код. X - это фрейм данных с формой (1000,5) , а y - это фрейм данных с формой (1000,1) . y - это целевые данные для прогнозирования, и они несбалансированы. Я хочу применить перекрестную проверку и SMOTE. def...

138 просмотров

python cross-validation oversampling

03.08.2023

Как использовать комбинацию передискретизации и недостаточной выборки? с несбалансированным обучением

Я хочу передискретизировать некоторые большие данные (размеры классов: 8 миллионов против 2700). Я хотел бы иметь по 50 000 выборок каждого класса с передискретизацией класса 2 и недостаточной выборки класса 1. imblearn, кажется, предлагает комбинацию...

372 просмотров

python machine-learning imblearn imbalanced-data oversampling

06.08.2023

Создание формулы R с использованием Python

Я пишу программу, которая взаимодействует с R, используя Python. По сути, у меня есть несколько библиотек R, которые я хочу включить в свой код Python. После загрузки rpy2 я определяю свои R-функции, которые я хочу использовать, в отдельном...

145 просмотров

python r formula rpy2 oversampling

14.07.2023

Передискретизация SMOTE создает новые точки данных

Я пытаюсь решить проблему несбалансированной классификации, все входные функции категоричны. Вот количество значений каждой функции: for i in X_train.columns: print(i+':',X_train[i].value_counts().shape[0]) Pclass: 3 Sex: 2 IsAlone: 2...

575 просмотров

python smote oversampling

06.03.2023