Прямо сейчас я использую инструмент моделирования тем LDA из пакета MALLET, чтобы определять темы в моих документах. Поначалу все нормально, 20 тем достал. Однако когда я пытаюсь вывести новый документ с помощью модели, результат несколько сбивает с толку.
Например, я намеренно запускаю свою модель над документом, который я создал вручную и который не содержит ничего, кроме ключевых слов из одной из тем "FLU", но распределение тем, которое я получил, было <0,1 для каждой темы. Затем я пробую то же самое с одним из уже отобранных документов, который имеет высокий балл 0,7 по одной из тем. Снова случилось то же самое.
Может кто-нибудь объяснить причину?
Пытался спросить в списке рассылки MALLET, но, видимо, никто не ответил.