Публикации по теме 'oversampling'
Обработка несбалансированного набора данных
(Наряду с реализацией на Python!)
Давайте возьмем пример набора данных «Пациент с раком», в котором мы проверяем, болен ли человек раком, на основе входных характеристик.
Предположим, что в нашем наборе данных есть 1000 записей, из которых 900 - больные раком, а остальные 100 - данные пациентов, не страдающих раком.
Таким образом, это явно пример набора данных о дисбалансе, поскольку у нас больше строк с людьми, больными раком, чем с людьми без рака. Поэтому, если мы обучим наши..
Передискретизация и недискретизация: ADASYN против ENN
Как повысить производительность модели машинного обучения по сравнению с несбалансированными наборами данных.
Введение
Одна из наиболее распространенных трудностей, с которыми я столкнулся как специалист по машинному обучению, - это дисбаланс классов в задачах классификации.
Это хорошо известная проблема, и существует множество подходов к ее решению, как описано в сообщении моего коллеги , но, безусловно, наиболее часто используемыми и простыми из них являются методы повторной..
Вопросы по теме 'oversampling'
Как передискретизировать текст (несбалансированные группы) в конвейере?
Я пытаюсь выполнить некоторую классификацию текста с помощью MultinomialNB, но у меня возникают проблемы, потому что мои данные несбалансированы. (Ниже для простоты приведены некоторые примеры данных. На самом деле мои данные намного больше.) Я...
1724 просмотров
schedule
14.03.2022
Передискретизация или SMOTE в Pyspark
У меня 7 классов, общее количество записей 115, и я хотел запустить модель случайного леса по этим данным. Но ведь данных недостаточно для получения высокой точности. Поэтому я хотел применить передискретизацию ко всем классам таким образом, чтобы...
7640 просмотров
schedule
09.04.2022
SMOTE для балансировки более 200 классов в R
У меня есть набор данных из двух столбцов (функция и класс) с более чем 200 классами, к которым должны быть классифицированы входные функции. Встречаемость классов колеблется от 1 до нескольких тысяч для некоторых классов. Столбец функций содержит...
1641 просмотров
schedule
18.03.2023
Есть ли пакет или функция, которые могут выполнять SMOTE с непрерывными и категориальными функциями?
У меня есть несбалансированный набор данных с категориальной зависимой переменной и характеристическими переменными, которые являются непрерывными и категориальными. Я знаю, что функция SMOTE из пакета DMwR может обрабатывать только непрерывные...
1783 просмотров
schedule
13.02.2023
Функция перекрестной проверки и передискретизации (SMOTE)
Я написал приведенный ниже код. X - это фрейм данных с формой (1000,5) , а y - это фрейм данных с формой (1000,1) . y - это целевые данные для прогнозирования, и они несбалансированы. Я хочу применить перекрестную проверку и SMOTE.
def...
138 просмотров
schedule
03.08.2023
Как использовать комбинацию передискретизации и недостаточной выборки? с несбалансированным обучением
Я хочу передискретизировать некоторые большие данные (размеры классов: 8 миллионов против 2700). Я хотел бы иметь по 50 000 выборок каждого класса с передискретизацией класса 2 и недостаточной выборки класса 1. imblearn, кажется, предлагает комбинацию...
372 просмотров
schedule
06.08.2023
Создание формулы R с использованием Python
Я пишу программу, которая взаимодействует с R, используя Python. По сути, у меня есть несколько библиотек R, которые я хочу включить в свой код Python. После загрузки rpy2 я определяю свои R-функции, которые я хочу использовать, в отдельном...
145 просмотров
schedule
14.07.2023
Передискретизация SMOTE создает новые точки данных
Я пытаюсь решить проблему несбалансированной классификации, все входные функции категоричны. Вот количество значений каждой функции:
for i in X_train.columns:
print(i+':',X_train[i].value_counts().shape[0])
Pclass: 3
Sex: 2
IsAlone: 2...
575 просмотров
schedule
06.03.2023