У меня есть несбалансированный набор данных с категориальной зависимой переменной и характеристическими переменными, которые являются непрерывными и категориальными. Я знаю, что функция SMOTE из пакета DMwR может обрабатывать только непрерывные функции. Есть ли пакет, который может обрабатывать категориальные и непрерывные функции, такие как, как описывает Чавла, в его газета?
Есть ли пакет или функция, которые могут выполнять SMOTE с непрерывными и категориальными функциями?
Ответы (1)
Вы можете справиться с этим в R!
Да, и smotefamily :: SMOTE, и DMwR :: SMOTE могут обрабатывать только числовые функции, потому что основной алгоритм является k-ближайшими соседями.
Следовательно:
преобразовать все категориальные переменные в тип данных
factor
.вычислить числовые оценки каждого уровня фактора с помощью самого последнего пакета
tidymodels::embed
Пакет tidymodels::embed
предлагает три метода для выполнения шага 2:
- step_lencode_glm
- step_lencode_bayes
- step_lencode_mixed
В документации говорится, что эти методы estimate the effect of each of the factor levels on the outcome and these estimates are used as the new encoding.
person
Agile Bean
schedule
01.11.2019
For SMOTE, we extracted the continuous features and generated a new dataset with only continuous features.
- person G5W   schedule 25.03.2019