темы поезда bin/молотка получают разные результаты в каждом случае

Когда я запускаю команду bin\mallet train-topics --input input.tutorial.mallet --num-topics 40 --num-iterations 100 --optimize-interval 50 --optimize-burn-in 200 --output- состояние input.gz --output-topic-keys inputkeys.txt --output-doc-topics input-proportion.txt

Я получаю разные результаты при каждом запуске команды.

Вывод:

0 AJAY_DASARI 19 0,062051649928263994 39 0,03263988522238164 35 0,03263988522238164 33 +0,03263988522238164 32 +0,03263988522238164 23 +0,03263988522238164 ............... 1 BALVINDERSINGH 21 +0,06297779395704405 36 +0,04805242082271569 22 +0,04805242082271569 35 +0,03312704768838733 32 0,03312704768838733 31 0,03312704768838733 30 0,03312704768838733 26 0,03312704768838733 24 0,03312704768838733 15 0,03312704768838733 13 ................

Как получить один и тот же результат каждый раз, когда используется команда


person NAVEED    schedule 05.08.2013    source источник


Ответы (3)


При обучении модели используйте параметр --random-seed INTEGER (отличный от 0, иначе используются часы), чтобы исправить случайное начальное число. Это должно дать вам стабильные результаты в нескольких прогонах.

В этой функции была ошибка, которая теперь исправлена в версия для разработки.
См. страницу загрузки MALLET, чтобы создать самую последнюю версию.

person Bernard    schedule 27.08.2014

Это вероятностно-статистический подход, основанный на выборке, поэтому вам не следует ожидать одинаковых оценок и одного и того же слова в строке каждый раз, когда вы запускаете команду... также я считаю, что количество итераций немного мало. Попробуйте поставить 1000.

Надеюсь, поможет.

person goh    schedule 04.10.2013

Единственный способ каждый раз получать один и тот же ответ — это задавать генератор случайных чисел одинаковым образом.

MALLET использует выборку Гиббса для вывода свойств тематической модели: это метод Монте-Карло цепи Маркова, который использует генератор случайных чисел для итеративной повторной выборки некоторых параметров в модели на основе текущего значения всех остальных. В некоторых случаях вы можете усреднить количество интереса по разным итерациям, чтобы сделать его более стабильным: однако сами темы не могут быть усреднены по итерациям из-за того, что называется идентифицируемостью. См. следующую статью Гриффитса и Стейверса, особенно сноску на стр. 5230.

person Ben Allison    schedule 04.10.2013