Игра DeepMind в захвате флага с помощью глубокого обучения с подкреплением

№ 4 Исследовательская статья Разъяснение

DeepMind и другие университеты опубликовали множество статей по сквозному обучению с подкреплением, которые используются для задач, которые могут быть решены одним агентом. Сквозные алгоритмы RL изучают как представление функций, так и принятие решений в сети, принимая пиксели в качестве входных данных, а элементы управления - в качестве выходных.

В реальном мире есть проблемы, которые требуют, чтобы несколько человек действовали независимо, но при этом сотрудничали друг с другом для достижения единой цели. От игр, таких как футбол или баскетбол, до посадки ракеты на Луну, команда людей работает вместе, следуя стратегии, чтобы завершить работу быстрее и безопаснее за счет снижения риска неудачи. Эту бумагу можно использовать для решения многих реальных задач, поэтому давайте разберем ее, чтобы понять их решение.

DeepMind разработал алгоритм непрерывной репликации на основе популяции, который успешно решает проблему, используя двухуровневый процесс оптимизации и обучая людей, действующих и обучающихся независимо друг от друга в командной трехмерной многоагентной среде (Capture the Flag ) стратегически работая вместе для достижения единой цели.

Это приводит к моделям, страдающим от высокой сложности проблемы обучения, возникающей из-за одновременной адаптации других обучающих агентов в окружающей среде.

Игра Capture the Flag имеет все черты проблемы, описанной выше:

1.Многоагентная игра с видом от первого лица в 3D (также может быть реализована в робототехнике из-за схожести с fpv).

2. Агенты, не осведомленные о решениях друг друга, играют в одной среде с противником или товарищем по команде.

3. Стратегическая игра для обучения высшим когнитивным навыкам .

Кроме того, для каждой игры случайным образом генерируются тематические карты помещений и открытых площадок. Две противостоящие команды, состоящие из нескольких отдельных игроков, соревнуются, чтобы захватить флаги друг друга, стратегически перемещаясь, помечая и уклоняясь от противников. Команда, у которой по истечении пяти минут было захвачено наибольшее количество флагов, побеждает в игре.

Специальные команды

Для разработки более обобщенных политик и обучающего агента, способного приобретать общие навыки, обучение фиксированных групп агентов на фиксированной карте сокращает разнообразие обучающих данных - вместо этого в документе разрабатывается алгоритм и процедура обучения, которые позволяют агентам приобретать политики, устойчивые к разнообразие карт, количество игроков и выбор товарищей по команде - парадигма, тесно связанная с ситуацией в команде .

Окончательный выигрыш / проигрыш - это отложенный эпизодический сигнал, полученный из окружающей среды, что затрудняет оптимизацию 1000 действий, выполняемых агентом на основе только одного двоичного сигнала в конце 5-минутной игры.

Из-за этого трудно отличить действия, которые помогли выиграть игру, от действий, которые не помогли.

Решить проблему можно, увеличив количество наград в игре. При более частом использовании внутренних вознаграждений вознаграждения можно назначать на основе действий, выполняемых агентом.

Требования к памяти и долгосрочному временному рассуждению высокоуровневой стратегической CTF-игры удовлетворяются за счет внедрения агентной архитектуры с многомасштабным представлением - напоминающим то, что наблюдалось в коре головного мозга приматов и внешнем модуле рабочей памяти - в значительной степени вдохновленным эпизодическая память человека.

Эти 3 нововведения интегрированы в масштабируемую, массово распределенную и асинхронную вычислительную структуру.

В игре агент получает необработанные входные данные пикселей RBG Xt от первого лица на временном шаге t, производит управляющее действие at и получает игровые очки ρt для обучения политике агента π.

Цель обучения с подкреплением - найти политику, которая максимизирует ожидаемое совокупное вознаграждение со скидкой по γ в CTF-игре с T временных шагов.

π параметризуется рекуррентной нейронной сетью с временной шкалой и внешней памятью.

Модель архитектуры агента конструирует временное иерархическое пространство временного представления и использует рекуррентную скрытую переменную для последовательного агента, чтобы способствовать использованию памяти и согласованных во времени последовательностей действий.

Вероятность выигрыша

Для специальных команд политика агента πo должна максимизировать вероятность победы для его команд { π0, π1, π2, ……… , π(N-1/2) } и политики его товарищей по команде { π1, π2, ……… , π(N-1/2) }, всего N игроков в игра:

где выигрышный оператор > возвращает 1, если левый выигрывает, 0 для проигрыша и случайным образом разрывает ничью. Кроме того, ω обозначает конкретные карты игр.

F или T W в командах. Теперь, когда мы используем более частые внутренние вознаграждения rt, мы можем реализовать идею о том, что каждый агент имеет более плотная функция вознаграждения, указав rt = w(ρt) на основе доступных сигналов игровых очков ρt (очки регистрируются для таких событий, как захват флага) и позволяя агенту изучить преобразование w, так что оптимизация политики для внутренних вознаграждений rt оптимизирует политику F или T он W, что дает нам агента FTW.

Традиционные методы, используемые для обучения тысячам мультиагентных сред в таком большом масштабе вместе, не поддерживаются, что делает методы нестабильными.

Масштабируемость - совокупность всего P различных агентов обучаются параллельно друг другу путем внесения разнообразия среди игроков для стабилизации обучения (54).

Подбор игроков - чтобы улучшить навыки агентов, товарищи по команде и противники отбираются из совокупности P. Агенты, проиндексированные с помощью ι для обучающей игры, с использованием схемы стохастического подбора игроков mp(π) , которая смещает товарищей по навыкам, аналогичным навыкам игрока p, что увеличивает неопределенность.

Уровень навыков агента - оценка навыков агентов оценивается онлайн путем расчета оценки Эло (15) на основе результатов обучающих игр.

Метаоптимизация - это метод использования одного метода оптимизации для обучения других оптимизаторов. В статье популяция используется для метаоптимизации внутренних вознаграждений и гиперпараметров самого процесса RL. Это можно рассматривать как двухуровневую проблему оптимизации RL. Внутренняя оптимизация, также известная как J внутренняя : Внутренняя оптимизация обеспечивается RL, и она максимизирует J внутренних, агентов. ожидаемые будущие дисконтированные внутренние вознаграждения. Внешняя оптимизация, также известная как J внешняя : Она решается с помощью обучения на основе населения (PBT) и максимизируется относительно внутренние схемы вознаграждения wp и гиперпараметры φp с внутренней
оптимизацией, обеспечивающей динамику мета-перехода.

PBT - это онлайн-эволюционный процесс, который адаптирует внутренние вознаграждения и гиперпараметры и выполняет выбор модели путем замены недостаточно эффективных агентов мутированными версиями лучших агентов.

Эта совместная оптимизация политик агентов помогает использовать потенциал объединения обучения и эволюции вместе, что приводит к максимальному увеличению:

Оценка во время обучения | Турнир

Для оценки обобщающей производительности агентов во время обучения на процедурно сгенерированных картах проводится турнир со специальными матчами с участием трех типов агентов.

Абляционная версия FTW.
Скриптовые боты Quake 3 Arena
Участники-люди с опытом игры от первого лица.

Полученные результаты

1. FTW явно превышал процент побед людей с картами, которые ни агент, ни человек не видели ранее, т. Е. Нулевое обобщение, при этом команда из двух человек в среднем захватывает 16 флагов за игру меньше, чем команда из двух агентов FTW.

2. Человек-агент против агента-агента - Только в составе команды h-a мы наблюдали победу человека над командой a-a (вероятность победы 5%).

3. Профессиональные геймеры против FTW - Даже после двенадцати часов практики испытатели игр-людей смогли выиграть только 25% игр против команды агентов.

4. Точность тегирования агентов. Агенты FTW составляли 80%, в то время как люди отставали только с 48% успехом. Агенты выиграли матч даже после того, как точность их меток была искусственно снижена до точности человека.

Превосходное качество наблюдения и контроля над людьми помогло им превзойти агентов FTW в успешной дальнодействующей маркировке с 17% и агентов на 0,5%.

Но FTW снова превзошел людей по времени реакции на метку на коротких дистанциях - 258 мс, и людей - по 559 мс.

Запуск нейронов в сети !!! | Представление знаний📺

Чтобы исследовать, как сеть приобрела навыки с таким высокоуровневым богатым представлением, сеть задавала вопросы о прошлом, настоящем или будущем состоянии игры. Например -

В: Есть ли у меня флаг? (Настоящее время)
В: Видел ли я недавно своего товарища по команде? (Прошлый)
В: Я скоро окажусь на базе противника? (Будущее)

Точно так же было задано в общей сложности 200 двоичных вопросов, основанных на особенностях игр, чтобы увидеть внутреннее представление сети.

Полученные результаты

По мнению авторов, агент знает данную функцию, если логистическая регрессия внутреннего состояния агента точно моделирует эту функцию. Интересно, что представление агента FTW особенно хорошо кодирует особенности, связанные с прошлым: например, агент FTW смог классифицировать состояние, в котором оба флага сбиваются (флаги сброшены не на основании) с 91% AUCROC (площадь под кривой рабочих характеристик приемника) по сравнению с 70% при исходном уровне самостоятельной игры.

Я рекомендую вам просмотреть статью, чтобы увидеть более подробную статистику.

Визуализация

В этом документе есть еще много визуализаций, которые могут вам помочь. Я выбрал несколько, которые нуждаются в меньшем объяснении:

Заключение

В этой статье искусственный агент, использующий только пиксели и игровые очки в качестве входных данных, может научиться вести высококонкурентную игру в многофункциональной многоагентной среде. Это было достигнуто за счет сочетания ряда нововведений в обучении агентов - обучение агентов на основе популяции, внутренней оптимизации вознаграждения и временном иерархическом RL - вместе с масштабируемыми вычислительными архитектурами.

Этот документ может быть использован для решения других проблем, связанных с вами, которые содержат трудности с памятью и временно расширенными интерфейсами в своем решении. Итак, я рекомендую вам прочитать статью, чтобы повеселиться и понять методы, появившиеся на стыке наших знаний о машинном обучении, и расширить границы, реализовав статью, решая проблемы реального мира, чтобы жить на грани человеческих знаний.

Спасибо, что прочитали статью. Чтобы узнать больше о ваших любимых статьях и получать уведомления #PaperExplained. Подписывайтесь на меня в Medium и Twitter.