моя проблема
Я хочу создать классификатор SVM с одним классом для идентификации существительных/аспектов из тестового файла. Учебный файл имеет список существительных. В тесте есть список слов.
Вот что я сделал:
Я использую графический интерфейс Weka и обучил SVM одного класса (libSVM) для получения модели.
Теперь модель классифицирует те слова в тестовом файле, которые классификатор идентифицировал как существительные в сгенерированной модели. Другие классифицируются как выбросы. (Так что это просто работает как поиск. Если оно идентифицируется как существительное в обученной модели, то «да», иначе «нет»)
Итак, как построить правильный классификатор? (я имел в виду формат ввода и какую информацию он должен содержать?)
Примечание:
- Я не привожу отрицательных примеров в тренировочном файле, так как это один класс.
- Мой формат ввода: arff
- Формат тренировочного файла представляет собой набор word, yes
- Формат тестового файла представляет собой набор слов,?
ИЗМЕНИТЬ В моем тестовом файле будут сочетания-существительные. Таким образом, работа моего классификатора состоит в том, чтобы получить слова-существительные от кандидатов в тестовом файле.