Цель любого алгоритма обучения с подкреплением (RL) - определить оптимальную политику, которая имеет максимальное вознаграждение. Прежде чем переходить к каким-либо конкретным алгоритмам RL, важно понять несколько ключевых концепций.

Эпизод

Это последовательность состояний и действий.

Награда и возврат

Награда определяет, насколько хорошо было действие из состояния s для достижения следующего состояния. Это ключевой компонент RL, который определяет обучение агента RL. Награда на определенном временном шаге t приведена ниже [5]:

Эта формула подразумевает, что rt - это награда на временном шаге t за выполнение действия от состояния st до достижения нового состояния st + 1. R указывает на функцию вознаграждения.

С другой стороны, возврат - это сумма вознаграждений от текущего состояния до целевого состояния. Существует два типа доходности: недисконтированная доходность с конечным горизонтом и доходность со скидкой с бесконечным горизонтом [5]

Доходность без скидки на конечном горизонте

Это сумма вознаграждения от текущего состояния до целевого состояния, которое имеет фиксированный временной шаг или конечное количество временных шагов Τ [5].

Это недисконтированный доход, как следует из названия, потому что из-за конечного временного интервала мы на самом деле не умножаем вознаграждение на коэффициент дисконтирования.

Бесконечная прибыль со скидкой

Это сумма всех вознаграждений, когда-либо полученных агентом RL, но факторы дисконтирования определяют, как далеко необходимо учитывать будущие вознаграждения [5].

Коэффициент дисконтирования γ

Он определяет, насколько будущие награды учитываются при возврате. Значение γ находится между 0 и 1. В крайнем случае, γ = 0 означает, что агент заботится только о немедленных вознаграждениях, а γ = 1 указывает, что все будущие вознаграждения принимаются во внимание [4]. Рассмотрим другой пример, когда γ = 0,9 имеет другую доходность по сравнению с γ = 0,99. При γ = 0,9 сумма вознаграждения за возврат учитывается до 6-го таймшага. Тогда как γ = 0,99 нужно брать сумму вознаграждения до 60-го таймшага.

Коэффициент дисконтирования используется по интуитивным и математическим причинам. Для интуиции вознаграждение сейчас лучше, чем вознаграждение позже. В то время как математически бесконечная сумма вознаграждений может не сходиться к конечному значению, с которым трудно иметь дело в математических расчетах [5]. Используя коэффициент дисконтирования, можно отказаться от вознаграждений в далеком будущем, что позволит доходу приблизиться к конечному значению.

Состояния и наблюдения

Состояние s - это полное описание состояния мира, в котором состояния полностью наблюдаемы. Тогда как наблюдение o - это частичное описание состояния мира.

Действия и области действия

Агент выполняет действие в среде, чтобы перейти к следующему состоянию из текущего состояния. Например, в задаче навигации поворот налево или поворот направо является примером действия. Набор всех допустимых действий в данной среде называется пространством действий [5]. Существует два типа пространства действий: пространство дискретного действия и пространство непрерывного действия. В дискретном пространстве действий возможно конечное число действий. Например, поворот налево или направо. В то время как пространство непрерывного действия может иметь бесконечное количество действий. Например, угол поворота вместо поворота влево или вправо.

Политика

Политика - это отображение состояний на действия. Другими словами, политика определяет, как агент ведет себя из определенного состояния. Есть два типа политик: детерминированная политика и стохастическая политика.

Детерминированная политика

Детерминированная политика выводит действие с вероятностью единица. Например, в сценарии вождения автомобиля представьте, что у нас есть три действия: повернуть налево, ехать прямо и повернуть направо. Агент RL с детерминированной политикой всегда выводит одно из действий с вероятностью 1. Это означает, что агент всегда выбирает действие без учета каких-либо неопределенностей. Обычно детерминированные политики представлены в следующих обозначениях:

Стохастическая политика

Стохастическая политика выводит распределение вероятностей по действиям из состояний. Например, рассмотрим три действия: повернуть налево, идти прямо, повернуть направо из состояния. Результатом политики будет распределение вероятностей по действиям, скажем, 20% повернуть налево, 50% идти прямо и 30% повернуть направо. Этот тип вероятности будет использоваться в недетерминированных средах. Стохастические политики представлены в следующих обозначениях:

Траектории

Траектория τ представляет собой последовательность состояний и действий [5].

Функция значения

государственно-ценностная функция

Значение состояния Vπ (s) - это ожидаемое общее вознаграждение, начиная с состояния s и действующее в соответствии с политикой π. Если агент использует заданную политику π для выбора действий, соответствующая функция значения задается следующим образом:

Оптимальная функция значения состояния: она имеет функцию высокого возможного значения по сравнению с другими функциями значения для всех состояний.

Если нам известна функция оптимального значения, тогда политика, соответствующая функции оптимального значения, является o оптимальной политикой 𝛑 *.

Функция значения действия

Это ожидаемый доход для агента, начиная с состояния s и выполняя произвольное действие a, а затем навсегда после действия в соответствии с политикой 𝛑.

Оптимальная Q-функция Q * (s, a) означает максимально возможное значение q для агента, начиная с состояния s и выбирая действие a. Здесь Q * (s, a) указывает, насколько хорошо агенту выбирать действие, находясь в состоянии s.

Поскольку V * (s) - это максимальное ожидаемое общее вознаграждение при запуске из состояния s, оно будет максимальным из Q * (s, a) общих возможных действий. Следовательно, соотношение между Q * (s, a) и V * (s) легко получить как:

и если мы знаем оптимальную Q-функцию Q * (s, a), оптимальную политику можно легко извлечь, выбрав действие a, которое дает максимум Q * (s, a) для состояния s.

Итерация политики и итерация значения

В итерации политики сначала выбирается случайная политика, а функция ценности этой политики определяется на этапе оценки. Затем найдите новую политику на основе функции ценности, вычисленной на этапе улучшения. Процесс повторяется, пока не будет найдена оптимальная политика. В этом типе RL политикой манипулируют напрямую.

В итерации значения сначала выбирается функция случайного значения, а затем выполняется поиск новой функции значения. Этот процесс повторяется до тех пор, пока не будет найдена функция оптимального значения. Интуиция здесь заключается в том, что политика, которая следует за функцией оптимального значения, будет оптимальной политикой. Здесь политикой неявно манипулируют.

Если вам нравится моя статья, подпишитесь на меня в профилях Github, Linkedin и / или Medium.

использованная литература

  1. Https://medium.com/@jonathan_hui/rl-reinforcement-learning-terms-242baac11907
  2. Https://www.freecodecamp.org/news/an-introduction-to-policy-gradients-with-cartpole-and-doom-495b5ef2207f/
  3. Https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html
  4. Http://machinelearningmechanic.com/deep_learning/reinforcement_learning/2019/12/06/a_mat Mathematical_introduction_to_policy_gradient.html
  5. Https://spinningup.openai.com/en/latest/spinningup/rl_intro.html
  6. Https://www.kdnuggets.com/2018/03/5-things-reinforcement-learning.html
  7. Https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf
  8. Http://incompleteideas.net/book/first/ebook/node43.html