Глубокое Q-обучение

Эта статья будет вводным обзором Deep Q Learning и посвящена его методологии и этапам обновления. Уравнения написаны с использованием слова/латекса.

Это будут мои заметки, к которым я буду возвращаться, когда мне нужно будет пересмотреть, что такое обучение Deep Q. Это основано на моих знаниях из статей и из раздела глубокого обучения Udacity.

Обзор

Что такое Deep Q Learning = Deep Neural Networks + Q Learning (обучение с подкреплением).

Это не очень старая концепция, как вы видите ниже, AlphaGo недавно обыграл Ли Седоля в 2016 году, используя некоторые из этих техник. Агент игрового решения Atari от «Deepmind», который так известен, также основан на этих концепциях.

Понимание шага обновления для Deep Q-Learning

Мы описываем ниже некоторые подробности здесь. Deep Q Learning будет состоять из следующих частей:

Нейронные сети — это универсальные аппроксиматоры функций, поэтому мы можем использовать нейронные сети в качестве функций значений, а затем использовать методы, описанные слева, чтобы узнать, как обновить функцию значений.

Существуют разные способы выполнения шага обновления для градиентного спуска. Ниже я покажу шаг обновления Монте-Карло.

Обзор шага обновления Монте-Карло

SARSA — это алгоритм on-policy, что означает, что мы обновляем ту же политику, которой следуем для выполнения действий. Он быстро сходится, потому что мы используем самые обновленная политика для принятия каждого решения, но у нее есть свои проблемы, политика, которую изучают и которой следуют, тесно связаны друг с другом, поэтому мы используем вне политики алгоритм обучения, такой как Q -Learning, который является вариантом TD-Learning.

Обучение на основе политики. Политика, используемая для обновления действия, совпадает с той, которую изучает агент.
Подходит для онлайн-обучения
На Q-значения влияет исследование
Менее точные, чем меньше исследований

Обзор этапа обновления SARSA

Q-обучение – это вне политики вариант обучения TD. Иногда нам нужна политика, чтобы более эффективно учиться в среде, используя Жадность при ограничении исследования (GLIE), мы можем адаптировать ее для работы с аппроксимация функции. Основное отличие заключается в шаге "Обновить". Вместо того, чтобы выбирать следующее действие из той же эпсилон-жадной политики, мы жадно выбираем действие, которое максимизирует ожидаемое значение. идти вперед. Обратите внимание, что мы не предпринимаем это действие, оно используется только для выполнения обновления. На самом деле нам не нужно выбирать это действие, мы можем просто использовать максимальное значение Q для следующего состояния. Вот почему Q-Learning называется методом вне политики.

Мы используем одну политику для выполнения действий, эпсилон-жадную политику π, и еще одну политику для выполнения «обновления значения» жадной политики.
Хотя основные принципы одинаковы, это действительно разные политики. Примечание: политика, которую изучает агент, отличается от политики, которой он следует для обновления действия.
Есть два способа применить Q-обучение: мы можем использовать концепцию эпизодов или мы можем использовать его для непрерывных задач
Это плохо для онлайн-обучения, более точное и Q-значения не зависят от исследования.
Почему это так популярно? Агент использует более исследовательскую политику во время действия, и все же оптимальное значение функции. В какой-то момент мы можем прекратить исследование и следовать оптимальной политике для достижения лучших результатов.
Поддерживает автономный режим, возможно пакетное обучение, что важно для обучения нейронных сетей.

Deep Q-Learning и его внедрение в структуру агента нейронной сети Atari

Изображения на экране преобразуются в оттенки серого и обрабатываются слоями свертки. Эта система может использовать пространственные отношения.
4 кадра складываются и предоставляются в качестве входных данных
Исходный DQN использовал 3 конв. Слои с активацией RELU, за которыми следует один полностью связанный скрытый слой с активацией RELU и последний полностью связанный линейный выходной слой, который создает вектор значений действия.
Каждая игра была изучена с нуля со свежеинициализированной сетью.
Но бывают ситуации, когда веса сети могут колебаться или расходиться из-за высокой корреляции между действиями и весами, и, следовательно, как и ожидалось, политика может быть неэффективной.
Это можно решить с помощью двух разных методов: воспроизведение опыта и фиксированные Q-цели.

Обзор воспроизведения опыта

Это похоже на запоминание, когда мы сохраняем значения, которые необходимо использовать в будущем, поэтому мы сохраняем кортеж опыта в буфере воспроизведения или в памяти, где мы делаем выборку из них, чтобы учиться на них. В результате мы можем чтобы учиться на отдельных кортежах несколько раз, вспоминать частоту вхождений и лучше использовать наш опыт
Мы можем выбирать из этого кольцевого буфера случайным образом, так что это не похоже на стек или очередь. Это не обязательно должно быть в последовательности, это помогает разорвать корреляцию между действием и весами и предотвращает катастрофическое расхождение значений действия.
С дискретным пространством состояний все просто, с непрерывным пространством состояний всегда возникают проблемы, поэтому важно не учиться во время практики. Агент должен выбирать случайные кортежи и исследовать пространство состояний на наличие редких «кортежей». Агент не должен усиливать одно и то же действие снова и снова в цикле.
Через некоторое время агент может вернуться к своей обновленной функции значения, накопить опыт и учиться с помощью пакетного обучения. Таким образом, воспроизведение опыта может избежать внутренней корреляции, наблюдаемой в последовательных кортежах опыта, путем выборки их не по порядку.

Обзор целей с фиксированной добротностью

Фиксация параметров функции, используемых для генерации цели TD, чтобы отделить цель TD от параметров
Давайте рассмотрим более подробно, рассматривая уравнения фиксированной Q-цели при выполнении шага градиентного спуска обновлений веса при использовании Q-обучения.

Обзор алгоритма обучения Deep Q

Вывод

На этом я закончу этот обзор, так как он достаточно всеобъемлющий, я начну следующую серию DQN с

Некоторые улучшения DQN, такие как Double DQN, повтор с приоритетом, дуэльные сети.
Как решить игру Atari с кодом от open-AI
Просмотр некоторых документов в этих областях, как указано в разделе чтения ниже.

Чтения

https://people.eecs.berkeley.edu/~brecht/papers/07.rah.rec.nips.pdf
Контроль на уровне человека посредством глубокого обучения с подкреплением, https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf
Mnih et al., 2015. Контроль на уровне человека посредством глубокого обучения с подкреплением. (бумага ДКН)
Он и др., 2015. Углубление в выпрямители: превосходство на уровне человека в классификации ImageNet. (инициализация веса)
Трун и Шварц, 1993. Вопросы использования аппроксимации функций для обучения с подкреплением. (завышение Q-значений)
ван Хасселт и др., 2015. Глубокое обучение с подкреплением с двойным Q-обучением.
Шауль и др., 2016. Воспроизведение приоритетного опыта.
Ван и др., 2015. Дуэль сетевых архитектур для глубокого обучения с подкреплением.
Hausknecht & Stone, 2015. Глубокое рекуррентное Q-обучение для частично наблюдаемых MDP.
http://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html