У меня есть категориальная переменная, которую я хочу преобразовать в манекены для задачи классификации. проблема в том, что некоторые уровни появляются всего несколько раз, поэтому они создают проблемы идеальной мультиколлинеарности, когда я разделяю свою выборку на обучающую и тестовую выборки.
Как я могу избавиться от этих уровней быстро и элегантно? Вот простой пример моих данных:
label var_x
1 1
0 2
1 1
0 3
1 2
0 4
0 5
1 5
1 1
....
Допустим, я хочу сохранить только те уровни, которые появляются больше 1 (или любого другого числа). Я хочу перекодировать эти случаи как «0» и получить что-то вроде этого:
label var_x
1 1
0 2
1 1
0 0
1 2
0 0
0 5
1 5
1 1
....
спасибо за помощь