Я использую пакет gensim для реализации LSI в корпусе. Моя цель — выявить наиболее часто встречающиеся отдельные темы, встречающиеся в корпусе.
Если я не знаю количество тем в корпусе (по моим оценкам от 5 до 20), как лучше всего установить количество тем, которые должна искать LSI? Лучше искать большое количество тем (20-30) или небольшое количество тем (~5)?