Как сделать модель OneClassSVM более точной? (Scikit-учиться)

Я пытался классифицировать автора, используя несколько текстов, написанных этим автором, которые я затем использовал бы, чтобы найти сходство в других текстах, чтобы идентифицировать этого автора в тестовой группе.

Мне удалось сделать некоторые прогнозы, однако я все еще получаю результаты, когда автору не удалось предсказать.

Я предварительно обработал тексты заранее, выделив слова, пометки, стоп-слова, удалив знаки препинания и т. д., чтобы сделать текст более точным.

Я не знаком с тем, как именно работают параметры OneClassSVM. Какие параметры я могу использовать, чтобы наилучшим образом удовлетворить мою проблему, и как я могу сделать свою модель более точной в своих прогнозах?

Вот что у меня есть до сих пор:

vectorizer = TfidfVectorizer()

author_corpus = self.pre_process(author_corpus)
test_corpus = self.pre_process(test_corpus)

train = author_corpus
test = test_corpus

train_vectors = vectorizer.fit_transform(train)

test_vectors = vectorizer.transform(test)

model = OneClassSVM(kernel='linear', gamma='auto', nu=0.01)

model.fit(train_vectors)

test_predictions = model.predict(test_vectors)

print(test_predictions[:10])

print(model.score_samples(test_vectors)[:10])




Ответы (2)


Вы можете использовать SVM, но для этого действительно хорошо подходит глубокое обучение. Я провел соревнование на Kaggle с классификационными документами, и это было потрясающе.

Если вы считаете, что у вас недостаточно большой набор данных, вы можете просто взять модель текстового классификатора и переобучить последний слой на своем авторе, а затем точно настроить остальную часть модели.

person Tdoggo    schedule 03.03.2020
comment
Спасибо за ответ. Я не очень хорошо знаком с глубоким обучением. Есть ли у вас какие-либо руководства или ресурсы, которые я мог бы использовать, чтобы помочь мне построить модель глубокого обучения для атрибуции авторства? - person MythKhan; 03.03.2020

Я слышал положительные отзывы о курсе Эндрю Нг по глубокому обучению на Coursera. Я узнал все, что знаю об ИИ, используя профессиональную сертификацию Microsoft в области ИИ на edx.

person Tdoggo    schedule 04.03.2020