Я использую gensim
для обучения модели Doc2Vec
на документах, назначенных конкретным людям. Есть 10 миллионов документов и 8000 человек. Меня не волнуют все 8000 человек. Я забочусь о конкретной группе людей (скажем, от 1 до 500).
Люди, которые мне интересны, могут меняться изо дня в день, но мне никогда не нужно будет смотреть на всю совокупность. Конечная цель - получить результирующие векторы людей, которые мне интересны. В настоящее время я тренирую модель каждый раз на документах, назначенных конкретным людям.
Следует ли обучать модель на всех 10 миллионах документов? Или мне следует обучать модель только на документах, назначенных интересующим меня людям? Если важно обучить его на всех 10 миллионах документов, как мне получить векторы только для людей, которые меня интересуют?