Почему условие завершения алгоритма итерации значения (например, http://aima-java.googlecode.com/svn/trunk/aima-core/src/main/java/aima/core/probability/mdp/search/ValueIteration.java )
В MDP (Марковский процесс принятия решений)
||Ui+1-Ui||‹ ошибка*(1-гамма)/гамма, где
Ui — вектор полезностей
Ui+1 обновленный вектор полезностей
error - граница ошибки, используемая в алгоритме
коэффициент гамма-дисконта, используемый в алгоритме
Откуда берется «ошибка*(1-гамма)/гамма»? "делится на гамму" потому, что каждый шаг дисконтируется по гамме? Но ошибка*(1-гамма)? И насколько большой должна быть ошибка?