Большинство алгоритмов обучения основаны на человеческом интеллекте или на наблюдаемых явлениях в природе. В то время как Q-обучение основывается на том, как практика делает одну идеальную, а нейронные сети моделируются на работе нейронов в нашем мозгу (за исключением обратного распространения), а ошибка TD является мерой того, как мы оцениваем свои ошибки по мере продвижения к нашей предполагаемой цели. и все это происходит в Интернете. Но исследования доказали, что большая часть обучения происходит, когда человек спит, поскольку воспоминания воспроизводят ситуации, отдавая предпочтение немногим перед отдыхом и, следовательно, источником алгоритма воспроизведения опыта.

Традиционно агенты онлайн-обучения с подкреплением отбрасывают входные данные сразу после однократного обновления. Эта неэффективная методология обработки данных вызвала серьезную озабоченность, особенно когда задействованы аппроксиматоры нелинейных функций, такие как глубокие нейронные сети, поскольку для обучения сети требуется большой объем данных. Техника воспроизведения опыта (ER) избавила от этого, отделив действие от обучения с помощью «памяти», тем самым предотвратив временные отношения между текущим обновлением и соседними обновлениями, а также обеспечив многократное воспроизведение редких событий и экспоненциальное ускорение. Тем не менее, поскольку частота повторов одинакова, обучение для получения редких наград затруднено, поскольку мы сталкиваемся с множеством неудач и разной величины в редких сценариях успеха.

В то время как воспроизведение опыта освобождает агентов онлайн-обучения от обработки переходов в точном порядке, в котором они работают. Приоритетное воспроизведение дополнительно освобождает агентов от размышлений о переходах с той же периодичностью, с которой они сталкиваются. Основная мотивация для ER была идея, что некоторые переживания могут быть более важными, чем другие для нашего обучения, но могут происходить реже. Воспроизведение опыта не только увеличивает эффективность данных, но и снижает дисперсию, нарушая предполагаемые корреляции между соседними переходами с текущим переходом.

Приоритетное воспроизведение опыта (PER) выводит идею ER на шаг вперед, отдавая приоритет обучению от нескольких ключевых переходов над отдыхом, что делает алгоритм более быстрым, эффективным и действенным. Это достигается за счет увеличения частоты воспроизведения переходов с более высокой ошибкой временной разницы, поскольку ошибка TD считается мерой важности перехода. Приоритетное воспроизведение опыта фокусируется на том факте, что если мы сталкиваемся с ситуацией, которая действительно отличается от наших ожиданий, мы думаем об этом снова и снова и меняем нашу модель, пока она не подходит. Большинство нововведений и открытий связано с нашей попыткой приспособить то, что, как мы полагаем, далеко от реальности, но считается ее частью. Точно так же в PER мы предпочитаем переходы, которые не подходят для нашей текущей оценки функции Q, потому что это переходы, на которых мы можем больше всего учиться.

Случайная инициализация используется вместо нулевой инициализации, чтобы предотвратить нулевую вероятность столкновения с переходом. Кроме того, из-за вычислительных ограничений TD-ошибки обновляются только для воспроизводимых переходов, а для хранения и выборки памяти используется двоичная древовидная структура, чтобы предотвратить повторные проходы по всей памяти, а также обеспечивает ускорение алгоритмического выполнения. Для стохастических вознаграждений используется бутстреппинг. Эта приоритезация TD при жадной реализации обеспечивает резкое улучшение скорости обучения и минимизацию максимальной ошибки TD за счет более частого обнаружения этих переходов. Образцы с низкой начальной ошибкой TD не могут быть просмотрены дважды. Это отсутствие разнообразия, в свою очередь, делает алгоритм склонным к чрезмерной подгонке.

Это преодолевается за счет введения метода стохастической выборки, который находит баланс между жадной приоритизацией и случайной выборкой, вероятность перехода которой равна P (i) = p (i) ^ α / (Ʃ kp (k) ^ α), где p (i) может быть пропорциональной приоритизацией, задаваемой формулой pi = | δi | + e, или приоритезация на основе ранга, заданная как pi = 1 / rank (i), где последнее является более устойчивым, поскольку на него не влияют граничная область или величины ошибок. В случае нечастых вознаграждений, когда предполагается использовать структуру ошибки, последнее становится неэффективным. Альтернативный вариант - увеличить приоритеты перехода, которые со временем нечасто посещаются. Эти методы также вносят систематическую ошибку, поскольку мы изменяем базовую структуру распределения выборки неконтролируемым образом, что отрицательно влияет на решение, к которому она сходится, поскольку они взаимосвязаны.

Веса выборки по важности (IS) используются для коррекции смещения и задаются как wi = (N · P (i)) ^ (- β) / maxi (wi), а wiδi заменяет δi в обновлении обучения Q. Член max (wi) нормализует веса и гарантирует, что мы движемся к (глобальному) минимуму ошибки TD в этой задаче оптимизации вогнутой кривой. Первоначально нам нужно более высокое смещение (более низкое w (i)), поскольку мы хотим минимизировать ошибку TD как можно быстрее, таким образом извлекая максимальную пользу из минимальных переходов. С течением времени моделируемый отжиг используется для постепенного снижения смещения за счет увеличения значения гиперпараметра β с β0 до 1. Кроме того, поскольку мы используем ошибку TD, которая является приближением градиента первого порядка, большой размер шага в направлении ошибки TD будет быть разрушительным Это связано с тем, что ошибка TD является локально надежной, но более крупные шаги имеют глобальные последствия. Здесь нам на помощь приходит IS, обеспечивая меньший глобальный размер шага. Кроме того, отжиг β обеспечивает постоянное повторное приближение расширения Тейлора и, таким образом, гарантирует, что архитектура следует кривой обучения, ландшафт оптимизации которой очень нелинейен.

При тестировании в играх Atari с DQN и DQN с PER приоритизация воспроизведения дает повышение производительности почти во всех играх, а в совокупности обучение происходит в два раза быстрее. Он был дополнительно протестирован на наборе данных классификации цифр MNIST в условиях контролируемого обучения с сильно предвзятым распределением данных, и он превзошел существующие стандарты по точности и скорости. Также важным наблюдением здесь была его способность правильно классифицировать пограничные случаи (изображение, напоминающее 2 или более числа) в распределении.

Таким образом, TD-ошибка может быть плохой оценкой того, сколько агент может узнать от перехода, когда вознаграждения зашумлены. Кроме того, как справедливо предполагают авторы, можно модулировать приоритизацию, не обрабатывая положительные TD-ошибки так же, как отрицательные. Это согласуется с большинством экспертов по мнению, что результаты будут лучше, если мы будем отдавать предпочтение вознаграждениям над наказаниями, как это наблюдается с людьми. Ошибка TD также проблематична, когда есть необучаемые переходы.

Таким образом, существует потребность в лучшем способе измерения важности переходов в таких сценариях, как игры с редкими наградами после выполнения серии задач или обучения робота. Одной из основных проблем с памятью воспроизведения был размер памяти. Хотя поиск по дереву упрощает нашу задачу, он по-прежнему сталкивается с проклятием размерности. Удаление - более окончательное решение, чем уменьшение вероятности повторного воспроизведения, поэтому может потребоваться еще более сильный акцент на разнообразии.

Недавняя статья под названием DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY (DPER) является усовершенствованием этого алгоритма, в котором SGD и IS используются в качестве распределения. Мы можем предположить, что PER, описанный выше, был DPER с нулевой дисперсией, и мы рассматривали только среднее значение. Также Hindsight Experience Replay - это альтернативный алгоритм, который позволяет эффективно обучаться на основе вознаграждений, которые являются разреженными и двоичными, путем изменения цели на основе наблюдения, что не только приводит к увеличению данных, но и помогает учиться на ошибках. Следите за новостями, чтобы узнать больше о предстоящих статьях.