В предыдущем рассказе я писал о том, как теоретико-игровой подход повлиял на развитие области глубокого обучения. В этом рассказе я сейчас напишу о последнем набеге DeepMind на эту захватывающую область. В недавнем сообщении в блоге (т.е. вчера, 19 февраля 2017 г.) DeepMind представляет свое последнее исследование по этой теме под названием Понимание взаимодействия агентов.

Суть исследования заключается в том, что они использовали сети глубокого обучения с подкреплением в двух игровых средах для изучения своего поведения. Мотивация состоит в том, чтобы изучить многоагентные системы, чтобы лучше понимать и контролировать такие системы. В предыдущем рассказе (см .: Пять уровней возможностей глубокого обучения я изложил дорожную карту того, как глубокое обучение будет развиваться с еще большими возможностями. Для обсуждения я снова резюмирую его здесь:

  1. Только классификация (C)

Этот уровень включает в себя полносвязную нейронную сеть (FCN) и сверточную сеть (CNN) и их различные комбинации.

2. Классификация с памятью (CM)

Этот уровень включает элементы памяти, встроенные в сети уровня C.

3. Классификация со знанием (CK)

Этот уровень в некоторой степени похож на уровень CM, однако, а не необработанная память, информация, к которой сеть уровня C может получить доступ, является символьной базой знаний.

4. Классификация с несовершенными знаниями (CIK)

На этом уровне у нас есть система, построенная на основе CK, но способная рассуждать с несовершенной информацией.

5. Совместная классификация с несовершенными знаниями (CCIK)

Этот уровень очень похож на «теорию разума», где на самом деле у нас есть несколько агентных нейронных сетей, которые объединяются для решения проблем.

Как видно из приведенной выше классификации, наиболее продвинутый тип системы глубокого обучения будет включать в себя несколько нейронных сетей, которые либо взаимодействуют, либо конкурируют за решение проблем. Основная проблема мультиагентного подхода состоит в том, как контролировать его поведение. В другом рассказе я обращаюсь к этому, предлагая использовать рыночные механизмы в качестве средства контроля (см .: Обнаружение равновесия в модульном глубоком обучении). Оказывается, DeepMind уже некоторое время исследует этот подход. В документе DeepMind изучаются многоагентные системы с аналогичной экономической точки зрения (т.е. подход, основанный на стимулах):

Мы можем рассматривать обученных агентов ИИ как приближение к экономической модели рационального агента « homo economicus ». Следовательно, такие модели дают нам уникальную возможность тестировать политики и вмешательства в моделируемые системы взаимодействующих агентов - как человеческих, так и искусственных.

Исследователи DeepMind исследовали две игры: «Gathering» и «Wolf Pack». Агентам придется изучить либо кооперативную, либо конкурентную стратегию. В игре «Собирание», когда дефицит был введен в среду, агенты со сложными стратегиями, как правило, преследовали более агрессивные конкурентные стратегии. В игре «Волчья стая», которая была разработана для поощрения кооперативного поведения, агенты, изучающие сложные стратегии, не обязательно приводили к большему совместному поведению.

Основная ценность исследования заключается в том, что оно дает нам понимание многих регуляторов (то есть коэффициента дисконтирования, размера пакета, размера сети), которые можно настроить, чтобы получить различное поведение сети. В документе есть очень интересная диаграмма, отображающая поведение агента («Сбор» слева и «Волчья стая» справа):

Очень интересно, что на осях отмечены Жадность и Страх, а какие мотиваторы лучше? (Видео-лекция: https://www.youtube.com/watch?v=yE62Zwhmzi8)

DeepMind не одинок в своем исследовании многоагентных систем и глубокого обучения. Maluuba (недавно приобретенная Microsoft) также проводила активные исследования. В статье, опубликованной до приобретения, Повышение масштабируемости обучения с подкреплением путем разделения проблем:

Мы представили начальную работу над фреймворком для решения задач с одним агентом с использованием нескольких агентов. В нашей структуре разные агенты занимаются разными частями задачи. Наш подход можно рассматривать как обобщение традиционной иерархической декомпозиции.

На приведенном ниже графике сравнивается многоагентный подход «Разделение проблем» (SOC) с традиционным подходом:

Уникальность подхода Малуубы заключается в том, что функция вознаграждения каждого агента зависит не только от состояния окружающей среды, но и от коммуникативных действий других агентов. В зависимости от состава этих агентов агенты будут иметь разную степень связывания и, следовательно, независимость. Эта связь может варьироваться в зависимости от контекста и ситуации. Так, например, в контекстах с высокой наградой за среду агент может действовать независимо. В условиях низкой награды среды агент будет действовать в большей степени во взаимоотношениях с другими агентами.

Исследование Малуубы указывает на более иерархический механизм координации «командования и контроля», в отличие от распределенного управления, управляемого рынком. Однако весьма вероятно, что мы увидим гибридные комбинации этих методов координации, использующие скорее «пуристский» подход к координации.

В еще более раннем исследовании FAIR (FaceBook AI Research) Изучение многоагентной коммуникации с обратным распространением исследуется подход к кооперативному поведению с использованием обратного распространения. Исследование имеет общие черты с исследованием Малуубы в том, что агенты уравновешивают свое поведение с политикой, которую изучают, и общением между агентами:

Важно отметить, что во всех трех исследованиях агенты глубокого обучения изучают стратегии сотрудничества или конкуренции. Есть еще много открытых вопросов по поводу такого рода исследований. Однако большой вывод заключается в том, что эту работу выполняют гиганты этой области, DeepMind (Google), Maluuba (Microsoft) и FaceBook. Это индикатор того, куда движутся исследования Deep Learning. Поэтому я надеюсь, что эта статья вселила достаточно «жадности» или «страха», чтобы побудить человека быть в курсе событий в области теории игр и глубокого обучения.