как получить вероятность слов тем в Mallet

Я использую LDA в маллете для изучения своих данных. У меня нет проблем с запуском, просто мне нужно иметь вероятность топовых слов (допустим, 20 слов)

Я использую этот запрос:

bin\mallet train-topics  --input tutorial.mallet  --num-topics 40 --optimize-interval 20 --output-state topic-state_doc_40t.gz  --output-topic-keys tutorial_keys_doc_40t.txt --output-doc-topics tutorial_composition_doc_40t.txt

Я не знаю, каков будет запрос вероятностей слов.


person Raha1986    schedule 07.02.2017    source источник


Ответы (2)


Поздний ответ, но кто знает, это может помочь кому-то еще.

MALLET 2.0.8 имеет новую функцию для вывода очень интересного диагностического файла, содержащего набор метрик для каждой темы и ее главных слов. Слово вероятность является одним из них.

Просто добавьте --diagnostics-file FILENAME к вашей команде train-topics.

Количество слов, описанных для каждой темы, такое же, как определено параметром "--num-top-words".

Вот ссылка на подробную документацию: http://mallet.cs.umass.edu/diagnostics.php. Если вы не хотите повторно обучать свою тему, вы все равно можете вывести файл диагностики, используя свой файл «состояния». Все описано по ссылке.

person user8393850    schedule 31.07.2017

Вы должны иметь возможность использовать опцию --topic-word-weights-file FILENAME.

Формат выходного файла

topic [tab] word [tab] weight

где weight пропорционально вероятности слова в теме. Разделите на сумму весов темы, чтобы получить нормализованную вероятность.

person David Mimno    schedule 07.02.2017