У меня есть набор данных определенного домена (скажем, спорт - 1 класс). Что я хочу сделать, так это когда я передал веб-страницу классификатору/кластеру, я хочу получить результат, связан ли этот экземпляр (веб-страница) со спортом или нет.
Большинство классификаторов в weka не способны работать с наборами данных унарных классов, за исключением LibSVM (оболочки). Я провел несколько тестов с LibSVM, но проблема заключается в том, что во время тестов на несвязанном наборе данных я правильно классифицирую их все, даже если экземпляры пусты! Есть предложения?
Что, если я воспользуюсь косинусной мерой сходства?