Публикации по теме 'oversampling'


Обработка несбалансированного набора данных
(Наряду с реализацией на Python!) Давайте возьмем пример набора данных «Пациент с раком», в котором мы проверяем, болен ли человек раком, на основе входных характеристик. Предположим, что в нашем наборе данных есть 1000 записей, из которых 900 - больные раком, а остальные 100 - данные пациентов, не страдающих раком. Таким образом, это явно пример набора данных о дисбалансе, поскольку у нас больше строк с людьми, больными раком, чем с людьми без рака. Поэтому, если мы обучим наши..

Передискретизация и недискретизация: ADASYN против ENN
Как повысить производительность модели машинного обучения по сравнению с несбалансированными наборами данных. Введение Одна из наиболее распространенных трудностей, с которыми я столкнулся как специалист по машинному обучению, - это дисбаланс классов в задачах классификации. Это хорошо известная проблема, и существует множество подходов к ее решению, как описано в сообщении моего коллеги , но, безусловно, наиболее часто используемыми и простыми из них являются методы повторной..

Вопросы по теме 'oversampling'

Как передискретизировать текст (несбалансированные группы) в конвейере?
Я пытаюсь выполнить некоторую классификацию текста с помощью MultinomialNB, но у меня возникают проблемы, потому что мои данные несбалансированы. (Ниже для простоты приведены некоторые примеры данных. На самом деле мои данные намного больше.) Я...
1724 просмотров

Передискретизация или SMOTE в Pyspark
У меня 7 классов, общее количество записей 115, и я хотел запустить модель случайного леса по этим данным. Но ведь данных недостаточно для получения высокой точности. Поэтому я хотел применить передискретизацию ко всем классам таким образом, чтобы...
7640 просмотров

SMOTE для балансировки более 200 классов в R
У меня есть набор данных из двух столбцов (функция и класс) с более чем 200 классами, к которым должны быть классифицированы входные функции. Встречаемость классов колеблется от 1 до нескольких тысяч для некоторых классов. Столбец функций содержит...
1641 просмотров
schedule 18.03.2023

Есть ли пакет или функция, которые могут выполнять SMOTE с непрерывными и категориальными функциями?
У меня есть несбалансированный набор данных с категориальной зависимой переменной и характеристическими переменными, которые являются непрерывными и категориальными. Я знаю, что функция SMOTE из пакета DMwR может обрабатывать только непрерывные...
1783 просмотров
schedule 13.02.2023

Функция перекрестной проверки и передискретизации (SMOTE)
Я написал приведенный ниже код. X - это фрейм данных с формой (1000,5) , а y - это фрейм данных с формой (1000,1) . y - это целевые данные для прогнозирования, и они несбалансированы. Я хочу применить перекрестную проверку и SMOTE. def...
138 просмотров
schedule 03.08.2023

Как использовать комбинацию передискретизации и недостаточной выборки? с несбалансированным обучением
Я хочу передискретизировать некоторые большие данные (размеры классов: 8 миллионов против 2700). Я хотел бы иметь по 50 000 выборок каждого класса с передискретизацией класса 2 и недостаточной выборки класса 1. imblearn, кажется, предлагает комбинацию...
372 просмотров

Создание формулы R с использованием Python
Я пишу программу, которая взаимодействует с R, используя Python. По сути, у меня есть несколько библиотек R, которые я хочу включить в свой код Python. После загрузки rpy2 я определяю свои R-функции, которые я хочу использовать, в отдельном...
145 просмотров
schedule 14.07.2023

Передискретизация SMOTE создает новые точки данных
Я пытаюсь решить проблему несбалансированной классификации, все входные функции категоричны. Вот количество значений каждой функции: for i in X_train.columns: print(i+':',X_train[i].value_counts().shape[0]) Pclass: 3 Sex: 2 IsAlone: 2...
575 просмотров
schedule 06.03.2023