Странные значения недоумения модели LDA, обученной с помощью MALLET

Я обучил модель LDA с помощью MALLET на части дампа данных переполнения стека и разделил 70/30 для обучающих и тестовых данных.

Но значения недоумения странные, потому что для тестовой выборки они ниже, чем для обучающей выборки. Как это возможно? Я думал, что модель лучше подходит для обучающих данных?

Я уже перепроверил свои расчеты недоумения, но не нашел ошибки. Вы хоть представляете, в чем может быть причина?

Заранее спасибо!

Изменить:

Вместо того, чтобы использовать вывод консоли для значений LL/токен обучающего набора, я снова использовал оценщик на обучающем наборе. Теперь значения кажутся правдоподобными.

phly 23.04.2017 источник

Ответы (1)

arrow_upward
3
arrow_downward

Это имеет смысл. Число LL/токен дает вам вероятность присвоения тем и наблюдаемым словам, в то время как удерживаемая вероятность дает вам предельную вероятность только наблюдаемых слов, суммированных по темам.

David Mimno 25.04.2017

Странные значения недоумения модели LDA, обученной с помощью MALLET

Ответы (1)

Вопросы по теме