Итерация политик - это способ найти оптимальную политику для заданных состояний и действий.
Предположим, у нас есть политика (𝝅: S → A), которая назначает действие каждому состоянию. Действие 𝝅 (s) будет выбираться каждый раз, когда система находится в состоянии s.
Идея итерации политики
- Оценить данную политику (например, инициализировать политику произвольно для всех состояний s ∊ S) путем вычисления функции ценности для всех состояний s S в рамках данной политики
Функция ценности = ожидаемое вознаграждение, полученное на первом этапе + ожидаемая дисконтированная стоимость на следующем этапе
2. Улучшить политику: найти лучшее действие для состояния s ∊ S
3. Повторяйте шаг 1, 2, пока функция значения не сойдется к функции оптимального значения.
Пример оценки политики
Найдите оптимальную политику для задачи строгания (сетка 4x4)
Три состояния s (x, y): s (2,2) s (2,3) s (3,2)
Четыре действия 𝝅 (s): вверх, вниз, влево, вправо
Для данного действия 𝝅 (s) в соответствии с политикой вероятность того, что действие будет выполнено, составляет 0,70. а остальные действия будут иметь вероятность 0,10.
Если агент достиг цели s (3,2), агент остановится с вероятностью 1.
Пусть коэффициент дисконтирования (𝛄) равен 0,9.
Шаг 1. Оцените данную политику
Начните с простой политики 𝝅: всегда идите направо
Вероятность действий для данной политики
Вычислить функцию ценности для простой политики 𝝅
Решая, получаем:
V(3,2) = 10
V(2,2) = 9
V(2,3) = 4.265
Шаг 2. Улучшение политики
Простая политика:
Обновите его:
Шаг 3: повторяйте это до тех пор, пока не сойдется
Повторяйте шаг 1,2, пока все не изменится.
Я надеюсь, что эти блоги были полезны. Если я что-то пропустил, дайте мне знать.
Ссылка: Принципы автономии и принятия решений, Эмилио Фраццоли, 2010 г.
Люблю тебя папа и мама