В документации MALLET для обучения модели темы требуется тег --keep-sequence (подробности: http://mallet.cs.umass.edu/topics.php)
Однако, насколько мне известно, обычное LDA-моделирование использует документы как набор слов, поскольку включение биграммы значительно увеличит пространство признаков. Интересно, почему MALLET требует сохранения последовательности при обучении LDA и как MALLET на самом деле использует эту последовательность?
Спасибо, за то что прочитали эту статью.