Сходимость итерации значения

Почему условие завершения алгоритма итерации значения (например, http://aima-java.googlecode.com/svn/trunk/aima-core/src/main/java/aima/core/probability/mdp/search/ValueIteration.java )

В MDP (Марковский процесс принятия решений)

||Ui+1-Ui||‹ ошибка*(1-гамма)/гамма, где

Ui — вектор полезностей
Ui+1 обновленный вектор полезностей

error - граница ошибки, используемая в алгоритме

коэффициент гамма-дисконта, используемый в алгоритме

Откуда берется «ошибка*(1-гамма)/гамма»? "делится на гамму" потому, что каждый шаг дисконтируется по гамме? Но ошибка*(1-гамма)? И насколько большой должна быть ошибка?

user34618 11.11.2013 источник

comment

Можете ли вы объяснить немного больше, особенно Что такое MDP? и каковы ваши параметры (пользовательский интерфейс, гамма, ошибка и т. д.)? - justhalf 11.11.2013

Ответы (1)

arrow_upward
0
arrow_downward

Это называется ошибкой Беллмана или остатком Беллмана.

См. Williams and Baird, 1993 г. для использования в MDP.

См. Littman, 1994 для использования в POMDP.

Novak 11.11.2013

comment

Я не вижу там ссылок на условие завершения error*(1-gamma)/gamma. - user34618; 11.11.2013

comment

Теорема третья Литтмана; взято из раздела границ производительности Уильямса и Бэрда. - Novak; 11.11.2013

Сходимость итерации значения

Ответы (1)

Вопросы по теме