Я пытался классифицировать автора, используя несколько текстов, написанных этим автором, которые я затем использовал бы, чтобы найти сходство в других текстах, чтобы идентифицировать этого автора в тестовой группе.
Мне удалось сделать некоторые прогнозы, однако я все еще получаю результаты, когда автору не удалось предсказать.
Я предварительно обработал тексты заранее, выделив слова, пометки, стоп-слова, удалив знаки препинания и т. д., чтобы сделать текст более точным.
Я не знаком с тем, как именно работают параметры OneClassSVM. Какие параметры я могу использовать, чтобы наилучшим образом удовлетворить мою проблему, и как я могу сделать свою модель более точной в своих прогнозах?
Вот что у меня есть до сих пор:
vectorizer = TfidfVectorizer()
author_corpus = self.pre_process(author_corpus)
test_corpus = self.pre_process(test_corpus)
train = author_corpus
test = test_corpus
train_vectors = vectorizer.fit_transform(train)
test_vectors = vectorizer.transform(test)
model = OneClassSVM(kernel='linear', gamma='auto', nu=0.01)
model.fit(train_vectors)
test_predictions = model.predict(test_vectors)
print(test_predictions[:10])
print(model.score_samples(test_vectors)[:10])