Я обучил модель LDA с помощью MALLET на части дампа данных переполнения стека и разделил 70/30 для обучающих и тестовых данных.
Но значения недоумения странные, потому что для тестовой выборки они ниже, чем для обучающей выборки. Как это возможно? Я думал, что модель лучше подходит для обучающих данных?
Я уже перепроверил свои расчеты недоумения, но не нашел ошибки. Вы хоть представляете, в чем может быть причина?
Заранее спасибо!
Изменить:
Вместо того, чтобы использовать вывод консоли для значений LL/токен обучающего набора, я снова использовал оценщик на обучающем наборе. Теперь значения кажутся правдоподобными.