Не ограничиваясь ажиотажем недавних успехов Deep RL

В последние недели DeepMind и OpenAI поделились, что они разработали агентов, которые могут научиться проходить первый уровень игры Montezuma’s Revenge для Atari 2600. Эти утверждения важны, потому что Месть Монтесумы важна. В отличие от подавляющего большинства игр в Аркадной обучающей среде (ALE), которые теперь легко решаются на сверхчеловеческом уровне обученными агентами, Месть Монтесумы до сих пор не решалась методами глубокого обучения с подкреплением, и некоторые считали ее неразрешимой. долгие годы.

Что отличает Montezuma’s Revenge от других игр в ALE, так это относительно небольшое количество наград. Для тех, кто не знаком, это означает, что агент получает сигналы вознаграждения только после выполнения определенной серии действий в течение продолжительных периодов времени. В случае с первой комнатой Мести Монтесумы (см. Рисунок 1 выше) это означает спуск по лестнице, прыжок через открытое пространство с помощью веревки, спуск по другой лестнице, перепрыгивание через движущегося врага и, наконец, подъем по другой лестнице. Все это только для того, чтобы получить самый первый ключ в самой первой комнате! На первом уровне есть еще 23 таких комнаты, по которым агент может пройти, чтобы пройти уровень (см. Рисунок 2 ниже). Еще больше усложняет ситуацию то, что условия отказа в игре довольно строгие: смерть агента происходит из-за любого количества возможных событий, самым суровым из которых является просто падение со слишком высокой высоты. Я призываю тех, кто не знаком с игрой, попробовать поиграть в нее и посмотреть, сколько времени вам понадобится, чтобы пройти даже первую комнату, не говоря уже о первом уровне. Вы можете найти онлайн-версию игры здесь: https://www.retrogames.cz/play_124-Atari2600.php?language=EN

Из-за этой печально известной сложности игра стала своего рода серьезным вызовом для методов Deep RL. Фактически, игра вдохновила на разработку некоторых из наиболее интересных подходов к расширению или переработке традиционного алгоритма Deep RL с подходами, использующими новые методы для иерархического управления, исследования и воспроизведения опыта. Итак, это было большой новостью (по крайней мере, в определенных кругах), когда DeepMind и OpenAI заявили, что разработали алгоритмы, способные так хорошо играть в эту игру. Чтобы дать вам представление о том, насколько лучше, примите во внимание, что предыдущее состояние игры составляло 2600 очков, а эти новые методы приносили десятки тысяч очков. Все три предложенных метода представляют собой впечатляющие усилия как с инженерной, так и с теоретической точки зрения, и всем есть чему поучиться. К сожалению, претензии к решению Мести Монтесумы с помощью глубокого обучения с подкреплением не совсем то, чем кажутся. Во всех трех случаях (две статьи DeepMind и одно сообщение в блоге OpenAI) использование экспертных человеческих демонстраций было неотъемлемой частью алгоритма, коренным образом меняющим характер проблемы обучения.

В этом посте я хочу обсудить, что делают эти методы для решения первого уровня мести Монтесумы, и почему в контексте игры и долгосрочных целях Deep RL этот подход не так интересен или значим. как может показаться. Наконец, я вкратце расскажу о том, что я считаю поистине впечатляющими результатами в пресловутой игре, которая укажет путь вперед.

Результаты DeepMind

Обучение на YouTube

Обладая привлекательным названием Играем в сложные исследовательские игры с просмотром YouTube, DeepMind предлагает наиболее интересный из трех подходов к решению Месть Монтесумы. Как следует из названия, исследовательская группа разработала метод, с помощью которого видеоролики опытных игроков, завершающих первый уровень игры, могут быть использованы для облегчения процесса обучения. Проблема обучения по видео - сама по себе интересная задача, полностью выходящая за рамки дополнительных проблем, связанных с данной игрой. Как отмечают авторы, видео, найденные на YouTube, содержат различное расположение артефактов, которые могут помешать простому сопоставлению между тем, что происходит в видео, и тем, что может наблюдать агент, играющий в ALE. Чтобы обойти этот пробел, они создают метод, который может встраивать наблюдения за состоянием игры (визуальные и слуховые) в общее пространство встраивания.

Это пространство встраивания затем используется, чтобы предоставить обучающему агенту своего рода хлебную крошку в качестве вознаграждения по мере его продвижения. Вместо того, чтобы получать только редкие награды, предоставляемые исходной игрой, агент имеет доступ к промежуточным наградам, которые соответствуют достижению контрольных точек на пути, которые предоставляются опытными игроками. Таким образом, агент получает доступ к гораздо более сильному обучающему сигналу и может в конечном итоге завершить первый уровень игры со счетом 41000.

Q-Learning на демонстрациях

Примерно в то же время, когда была опубликована статья на YouTube, DeepMind поделился результатами другой серии экспериментов с несколько менее заметным названием: Наблюдайте и смотрите дальше: достижение стабильной производительности на Atari. В статье они предлагают ряд интересных алгоритмических улучшений для Deep Q-обучения, которые могут повысить стабильность и возможности алгоритма. Первый из них - это метод увеличения коэффициента дисконтирования в Q-обновлении, чтобы можно было изучить долгосрочные временные зависимости без типичных недостатков более высоких коэффициентов дисконтирования. Второй - это средство, позволяющее глубокому Q-обучению учитывать сигналы вознаграждения в различных порядках величины и, таким образом, позволять их алгоритму решать задачи, в которых оптимальная политика включает изучение этих различных вознаграждений.

Однако наряду с этими двумя улучшениями они также предлагают использовать человеческие демонстрации в качестве средства расширения процесса исследования путем автоматического предоставления в сеть информации о траекториях в пространстве состояний, по которым будет следовать опытный игрок. Соединив все эти три улучшения, авторы получают агента, который может научиться завершить первый уровень Месть Монтесумы с результатом 38 000 очков. Примечательно, однако, что первых двух улучшений без демонстрации экспертов недостаточно, чтобы добиться впечатляющих результатов в игре, набрав только 2000 очков.

Результаты OpenAI

Через несколько недель после результатов DeepMind OpenAI опубликовал сообщение в блоге, в котором они описывают метод, с помощью которого они также могут обучить агента пройти первый уровень Мести Монтесумы. Этот также основан на человеческих демонстрациях, но использует их немного иначе, чем подход DeepMind. Вместо того, чтобы использовать демонстрации как часть сигнала вознаграждения или обучения, демонстрации используются как средство разумного перезапуска агента. Учитывая опытную человеческую траекторию в игре, агент запускается ближе к концу игры, а затем медленно движется назад по траектории при каждом перезапуске по мере обучения. Это приводит к тому, что агент подвергается воздействию только тех частей игры, через которые прошел игрок-человек, и только расширяет область действия по мере того, как сам агент становится более компетентным. При использовании этого метода нет изменений в фактическом алгоритме обучения, поскольку используется проксимальная оптимизация политики (PPO) по умолчанию. Достаточно просто запустить агента в правильном месте, чтобы убедиться, что он наткнется на правильное решение и наберет впечатляющую оценку в 74 500 баллов.

Ограничения подражания

Все описанные выше подходы объединяет то, что они используют набор экспериментальных человеческих демонстраций. Первый подход использовал демонстрации для изучения сигнала вознаграждения, второй использовал их для получения более точных значений Q, а третий использовал их для более интеллектуального перезапуска агента. Во всех трех случаях демонстрации имели решающее значение для процесса обучения. В целом использование демонстраций - это убедительный способ предоставить агентам значимые знания о задаче. В самом деле, именно так многие люди изучают бесчисленные задачи. Однако ключом к человечности нашей способности учиться на демонстрациях является наша способность абстрагироваться и обобщать одну демонстрацию на новые ситуации. В случае Месть Монтесумы, вместо разработки универсального решения для игры (как предполагают два названия статей DeepMind), на самом деле был разработан интеллектуальный метод использования ключевой слабости игры в качестве экспериментальной платформы: ее детерминизма. .

Каждый раз, когда человек или агент играет в «Месть Монтесумы», им предоставляется один и тот же набор комнат, каждая из которых содержит одинаковый набор препятствий и головоломок. Таким образом, простого запоминания движений по каждой комнате достаточно, чтобы получить высокий балл и возможность пройти уровень. Хотя это не обязательно было бы значимым недостатком, если бы агентов заставляли учиться с нуля, он становится таковым, когда в ситуацию включаются демонстрации экспертов. Все три решения используют детерминированный характер игры, чтобы агент мог более легко изучить путь решения в игре. В конечном итоге изучается не то, как играть в сложные платформеры, а то, как выполнять заранее определенный набор действий, чтобы завершить конкретную игру.

В сообщении блога OpenAI кратко упоминается проблема детерминизма, но делается это на уровне самого эмулятора Atari, а не конкретной игры. Их решение - использовать случайный пропуск кадров, чтобы агент не запомнил траекторию. Хотя это не позволяет агенту буквально запоминать последовательность действий, это не мешает запоминанию общей траектории через пространство состояний.

Во всех случаях «Месть Монтесумы» больше не служит своей первоначальной цели - быть сложной проблемой решения проблем с разреженным вознаграждением, а, скорее, становится более простой проблемой изучения траектории через фиксированное пространство состояний. Это позор, потому что в своей первоначальной формулировке игра все еще может стать одной из наиболее серьезных проблем для исследователей глубокого обучения с подкреплением.

Решение мести Монтесумы, трудный путь

Я лично следил за результатами Месть Монтесумы в течение нескольких лет, потому что я видел их как лакмусовую бумажку для способности агентов глубокого обучения с подкреплением начать проявлять признаки более общих рассуждений и обучения. Многие результаты показали, что при наличии достаточных вычислительных возможностей глубокое обучение с подкреплением или даже случайный поиск способны решать простые задачи оптимизации. Однако человеческий интеллект, которым так интересуются многие исследователи, не предполагает простой оптимизации. Он включает в себя изучение и рассуждение о концепциях на нескольких уровнях абстракции. Затем он включает в себя обобщение полученных концептуальных знаний из одной проблемной области на множество адаптируемым способом.

Когда вы представите любому человеку первую комнату Мести Монтесумы и спросите его, что им нужно сделать, он быстро начнет описывать вам серию действий и наблюдений, которые предполагают сложное понимание вероятной динамики игры. Наиболее очевидным проявлением этого будет признание ключа как желаемого объекта, черепа как чего-то, чего следует избегать, а лестницы как имеющего возможность передвижения. Затем ключи предлагают возможность открывать запертые двери, и внезапно начинают появляться сложные многоступенчатые планы относительно того, как пройти уровень. Эти рассуждения и планирование работают не только на одном фиксированном уровне игры, но и на любом возможном аналогичном уровне или игре, которые нам представлены. Именно такие навыки необходимы для человеческого интеллекта и представляют интерес для тех, кто пытается вывести глубокое обучение с подкреплением за рамки набора простых алгоритмов оптимизации. Однако использование человеческих демонстраций в детерминированной среде полностью исключает необходимость в этих точных навыках.

Конечно, эти навыки труднее всего воплотить в алгоритмической форме, особенно когда они еще не полностью поняты в их человеческих проявлениях. В частности, в случае концептуального обучения, для решения новой проблемы часто необходимо использовать не общие знания. Как отметила группа в Беркли, без наших человеческих предшественников (биологических или изученных на протяжении всей жизни) многие видеоигры, которые мы считаем само собой разумеющимися простыми, оказываются намного более сложными. Чтобы продемонстрировать это, у них даже есть интерактивная браузерная игра, в которую вы можете играть, которая имитирует то, что может испытать случайно инициализированный агент на основе пикселей.

Тогда проблема состоит в том, как агенты могут естественным образом изучить априорные значения, необходимые для понимания такой игры, как Месть Монтесумы. Более того, как можно использовать эти выученные априорные значения, чтобы научиться играть не только на одном фиксированном уровне игры, но и на любом уровне любой подобной игры. Ведется интересная работа в области репрезентативного обучения и концептуального обоснования, которые, я думаю, будут важны для решения подобных проблем. Также ведется работа по разработке более вероятных сред, которые лучше проверяют способность агентов к обобщению, наиболее убедительным среди этих подходов является конкуренция GVGAI. Это направление исследований все еще находится на начальной стадии, но оно многообещающее.

Я с нетерпением жду того дня, когда мы сможем без сомнения сказать, что агент сможет научиться играть в Месть Монтесумы с нуля. Когда настанет этот день, будет много поводов для волнения.

Не стесняйтесь отвечать в комментариях своими мыслями и мнениями. Здесь представлены только мои личные мысли по этой теме, и я хотел бы услышать их мнение других, особенно если вы работаете в Deep RL и имеете опыт работы с Montezuma’s Revenge.