У меня есть следующий набор данных:
**organization** **university**
Facebook Harvard
Facebook Harvard
Facebook Harvard
Wetpaint UC Berkeley
Wetpaint LSE
Это университеты, в которых учатся основатели и соучредители этих организаций. Для моего проекта машинного обучения (с использованием случайного леса и деревьев решений) я хотел бы иметь по одной строке для каждой организации. Я считаю, что легко мог бы сделать это, создав фиктивные переменные, где у них будет 1 для существования организации и 0 в противном случае.
После создания фиктивных переменных можно будет добавить фиктивные переменные и объединить строки. Вот результат, которого я ожидал:
**organization** **Harvard** **UC Berkeley** **LSE**
Facebook 3 0 0
Wetpaint 0 1 1
Мне интересно, имеет ли это технически смысл для алгоритмов машинного обучения. Я также думаю, что, поскольку у нас есть 3 строки для Facebook и только 2 строки для Wetpaint, это также вызывает дисбаланс в строках. Интересно, вызовет ли это также дополнительные проблемы.
В качестве альтернативы можно ли иметь повторяющиеся строки для каждой организации и просто запускать алгоритм? Это вызовет какие-нибудь проблемы?
Пожалуйста, дай мне знать. Пожалуйста, оставьте ссылку на соответствующую книгу или научный журнал.