Моделирование тем с помощью Mallet - параметр вывода тематических ключей

У меня есть дополнительный вопрос к заданному здесь: Моделирование тем Mallet - тема параметр вывода ключей

Я надеюсь, что смогу получить более подробное объяснение этого вопроса, потому что у меня проблемы с пониманием этих чисел в выходных файлах.

Что может сказать нам суммирование выходных чисел? Например, с 20 темами и значением оптимизации 20 на 2000 итерациях сумма выходных данных составляет примерно 2. С тем же корпусом, но с 15 темами / 1000 итераций / оптимизацией 10 результат будет 0,77, а с 10 темами / 1000 итераций / оптимизация 10 это 0,72. Что это значит? Это вообще что-нибудь значит?

Кроме того, эти люди относятся к этим результатам как к параметрам, но, насколько я понимаю, параметр - это интервал оптимизации, а не результат на выходе. Итак, как правильно ссылаться на результат в выводе? Частота темы? Это процент чего-то? В какой части я ошибся?


person BehemothTheCat    schedule 23.12.2019    source источник


Ответы (1)


Вы правы, что параметр здесь означает две разные вещи.

  • Параметры статистической модели - это значения, которые определяют свойства этой модели. В этом случае они определяют, какие темы мы ожидаем чаще встречаться и насколько мы уверены в этом. В некоторых случаях они устанавливаются пользователем, в других - алгоритмом вывода.

  • Параметры алгоритма вывода - это настройки, которые определяют процедуру, с помощью которой мы устанавливаем параметры статистической модели.

Дополнительная путаница заключается в том, что, когда параметры модели явно задаются пользователем, Маллет использует тот же интерфейс, что и для настроек алгоритма.

Числа, которые вы видите, являются параметрами распределения Дирихле, которые описывают наши предварительные ожидания относительно сочетания тем в документе. Вы можете думать об этом как о двух частях: пропорции и величине. Если вы измените масштаб чисел, чтобы в сумме получилось 1,0, полученные пропорции подскажут вам, какие темы возникают чаще всего. Фактическая сумма чисел (величина) говорит вам, насколько уверена модель в том, что это реальная пропорция, которую вы увидите в документе. Меньшие значения указывают на большую изменчивость.

Возможное объяснение числа, которое вы видите (и, пожалуйста, рассматривайте это как грубое предположение), заключается в том, что модель из 20 тем имеет большую гибкость, чтобы соответствовать согласованным темам, и поэтому она примерно в три раза более уверена в том, что есть темы, которые постоянно встречаются больше часто в документах. По мере уменьшения количества тем специфика тем падает, поэтому более вероятно, что любая конкретная тема может быть большой в любом данном документе.

person David Mimno    schedule 24.12.2019
comment
Спасибо за объяснение, Дэвид, это очень помогает! Означает ли это, что модель как бы оценивает себя? П.С .: С праздником :) - person BehemothTheCat; 25.12.2019