Странные значения недоумения модели LDA, обученной с помощью MALLET

Я обучил модель LDA с помощью MALLET на части дампа данных переполнения стека и разделил 70/30 для обучающих и тестовых данных.

Но значения недоумения странные, потому что для тестовой выборки они ниже, чем для обучающей выборки. Как это возможно? Я думал, что модель лучше подходит для обучающих данных?

Я уже перепроверил свои расчеты недоумения, но не нашел ошибки. Вы хоть представляете, в чем может быть причина?

Заранее спасибо!

введите здесь описание изображения

Изменить:

Вместо того, чтобы использовать вывод консоли для значений LL/токен обучающего набора, я снова использовал оценщик на обучающем наборе. Теперь значения кажутся правдоподобными.

введите здесь описание изображения


person phly    schedule 23.04.2017    source источник


Ответы (1)


Это имеет смысл. Число LL/токен дает вам вероятность присвоения тем и наблюдаемым словам, в то время как удерживаемая вероятность дает вам предельную вероятность только наблюдаемых слов, суммированных по темам.

person David Mimno    schedule 25.04.2017