Итерация политик - это способ найти оптимальную политику для заданных состояний и действий.

Предположим, у нас есть политика (𝝅: S → A), которая назначает действие каждому состоянию. Действие 𝝅 (s) будет выбираться каждый раз, когда система находится в состоянии s.

Идея итерации политики

  1. Оценить данную политику (например, инициализировать политику произвольно для всех состояний s ∊ S) путем вычисления функции ценности для всех состояний s S в рамках данной политики

Функция ценности = ожидаемое вознаграждение, полученное на первом этапе + ожидаемая дисконтированная стоимость на следующем этапе

2. Улучшить политику: найти лучшее действие для состояния s ∊ S

3. Повторяйте шаг 1, 2, пока функция значения не сойдется к функции оптимального значения.

Пример оценки политики

Найдите оптимальную политику для задачи строгания (сетка 4x4)

Три состояния s (x, y): s (2,2) s (2,3) s (3,2)
Четыре действия 𝝅 (s): вверх, вниз, влево, вправо

Для данного действия 𝝅 (s) в соответствии с политикой вероятность того, что действие будет выполнено, составляет 0,70. а остальные действия будут иметь вероятность 0,10.
Если агент достиг цели s (3,2), агент остановится с вероятностью 1.

Пусть коэффициент дисконтирования (𝛄) равен 0,9.

Шаг 1. Оцените данную политику

Начните с простой политики 𝝅: всегда идите направо

Вероятность действий для данной политики

Вычислить функцию ценности для простой политики 𝝅

Решая, получаем:

V(3,2) = 10
V(2,2) = 9
V(2,3) = 4.265

Шаг 2. Улучшение политики

Простая политика:

Обновите его:

Шаг 3: повторяйте это до тех пор, пока не сойдется

Повторяйте шаг 1,2, пока все не изменится.

Я надеюсь, что эти блоги были полезны. Если я что-то пропустил, дайте мне знать.

Ссылка: Принципы автономии и принятия решений, Эмилио Фраццоли, 2010 г.

Люблю тебя папа и мама