Почему MALLET LDA должен сохранять последовательность?

В документации MALLET для обучения модели темы требуется тег --keep-sequence (подробности: http://mallet.cs.umass.edu/topics.php)

Однако, насколько мне известно, обычное LDA-моделирование использует документы как набор слов, поскольку включение биграммы значительно увеличит пространство признаков. Интересно, почему MALLET требует сохранения последовательности при обучении LDA и как MALLET на самом деле использует эту последовательность?

Спасибо, за то что прочитали эту статью.


person JLTChiu    schedule 13.03.2015    source источник


Ответы (1)


Не «нужно» соблюдать последовательность.

Эта опция предназначена просто для того, чтобы слова в теме, когда вы выполняете «--output-topic-keys», находились в той же последовательности, что и в примечаниях.

Это также полезно, когда вы ищете фразы в тематических моделях (http://www.mimno.org/articles/phrases/)

person Dhawal Joharapurkar    schedule 26.10.2015