Сходимость итерации значения

Почему условие завершения алгоритма итерации значения (например, http://aima-java.googlecode.com/svn/trunk/aima-core/src/main/java/aima/core/probability/mdp/search/ValueIteration.java )

В MDP (Марковский процесс принятия решений)

||Ui+1-Ui||‹ ошибка*(1-гамма)/гамма, где

Ui — вектор полезностей
Ui+1 обновленный вектор полезностей

error - граница ошибки, используемая в алгоритме

коэффициент гамма-дисконта, используемый в алгоритме

Откуда берется «ошибка*(1-гамма)/гамма»? "делится на гамму" потому, что каждый шаг дисконтируется по гамме? Но ошибка*(1-гамма)? И насколько большой должна быть ошибка?


person user34618    schedule 11.11.2013    source источник
comment
Можете ли вы объяснить немного больше, особенно Что такое MDP? и каковы ваши параметры (пользовательский интерфейс, гамма, ошибка и т. д.)?   -  person justhalf    schedule 11.11.2013


Ответы (1)


Это называется ошибкой Беллмана или остатком Беллмана.

См. Williams and Baird, 1993 г. для использования в MDP.

См. Littman, 1994 для использования в POMDP.

person Novak    schedule 11.11.2013
comment
Я не вижу там ссылок на условие завершения error*(1-gamma)/gamma. - person user34618; 11.11.2013
comment
Теорема третья Литтмана; взято из раздела границ производительности Уильямса и Бэрда. - person Novak; 11.11.2013