Итерация политики - простой пример

Итерация политик - это способ найти оптимальную политику для заданных состояний и действий.

Предположим, у нас есть политика (𝝅: S → A), которая назначает действие каждому состоянию. Действие 𝝅 (s) будет выбираться каждый раз, когда система находится в состоянии s.

Идея итерации политики

Оценить данную политику (например, инициализировать политику произвольно для всех состояний s ∊ S) путем вычисления функции ценности для всех состояний s S в рамках данной политики

Функция ценности = ожидаемое вознаграждение, полученное на первом этапе + ожидаемая дисконтированная стоимость на следующем этапе

2. Улучшить политику: найти лучшее действие для состояния s ∊ S

3. Повторяйте шаг 1, 2, пока функция значения не сойдется к функции оптимального значения.

Пример оценки политики

Найдите оптимальную политику для задачи строгания (сетка 4x4)

Три состояния s (x, y): s (2,2) s (2,3) s (3,2)
Четыре действия 𝝅 (s): вверх, вниз, влево, вправо

Для данного действия 𝝅 (s) в соответствии с политикой вероятность того, что действие будет выполнено, составляет 0,70. а остальные действия будут иметь вероятность 0,10.
Если агент достиг цели s (3,2), агент остановится с вероятностью 1.

Пусть коэффициент дисконтирования (𝛄) равен 0,9.