В этом письме делается попытка дать некоторую справочную информацию об усиленном обучении и Q-обучении в DDPG с двойной задержкой. Усиленное обучение (RL) — это принцип обучения чему-то методом проб и ошибок. В RL агент пытается получить максимальное вознаграждение за определенное количество итераций (или времени).

Q Learning иллюстрирует усиленный процесс обучения. Q означает качество. Он представляет собой награду от комбинации действия + состояния, когда агент делает каждый шаг в лабиринте. На рисунке ниже при приближении к флажку шашки значение Q увеличивается. При приближении к огню значение Q уменьшается.

Важным понятием в обучении Q является временная разница. Первые два члена являются целевым значением Q. Последний член является прогнозируемым значением Q.

Глубокое Q-обучение — это метод аппроксимации ожидаемой отдачи. Это применимо только в дискретном пространстве действия. Он работает путем прогнозирования значения Q как можно ближе к целевому значению Q, R(s, a) + gamma*max(Q(s, a)). Другими словами, он стремится минимизировать потери между прогнозом и целью. Техника уменьшения потерь заключается в обратном распространении потерь в нейронной сети с помощью стохастического градиентного спуска (SGD).

Градиент политики — это метод максимизации ожидаемой доходности путем прямого обновления весов нейронной сети. Градиент ожидаемой доходности вычисляется относительно фи. Затем параметр политики phi обновляется посредством градиентного подъема.

Обновите параметр политики phi с помощью градиента и альфа-скорости обучения.

В модели Actor Critic параметр политики Актера обновляется посредством градиентного подъема. Модель Critic выводит значение Q, которое приближается к целевому значению Q (для аппроксимации ожидаемой доходности). Ожидаемый доход используется для выполнения градиентного подъема для обновления параметра политики. Модель «актор-критик» предлагается в академической статье «Адресация ошибки аппроксимации функции в моделях «актор-критик».

Модель Twin Delay DDPG (TD3) работает в непрерывном пространстве действия. DDPG означает глубокий детерминированный градиент политики. «Глубокий», потому что он использует глубокую нейронную сеть как для Актера, так и для Критика. Он сочетает в себе идеи градиента политики и глубокого обучения Q. Он использует две целевые сети, поскольку это добавляет стабильности процессу обучения.

В модели TD3 цель актора производит действие (a). Действие (а) и состояние (я) используются в качестве входных данных для цели критики. Две критические цели выводят два значения Q. Берем минимальное значение двух значений Q, добавляем к нему стохастический шум, и получаем целевое значение Q. Целевое значение Q сравнивается с двумя значениями Q из модели критика. Оттуда мы получаем два значения потерь.

Для обучения Q в модели TD3 мы используем обратное распространение, чтобы минимизировать значение потерь.