В этом эссе представлена ​​концепция системы поведения, основанной на эмоциях, для воплощенных агентов, включая роботов и персонажей видеоигр. Сопровождающее видео доступно здесь: https://www.youtube.com/watch?v=y_ZLmpLML_4

Аарон Круминьш - внештатный разработчик программного обеспечения, связанного с ИИ.

По мере того как создатели роботов, персонажей видеоигр и других искусственных агентов стремятся к еще большей степени реализма, понимание роли эмоций в поведении людей и животных будет приобретать все большее значение.

Эмоции обычно рассматриваются как средство сообщения другим о нашем внутреннем состоянии. Однако недавняя работа группы нейробиологов показала сложную роль, которую эмоции играют в принятии стратегических решений, в частности, сигнализируя себе о том, как мы относимся к действиям, доступным нам (Антонио Р. Дамасио, 2005). Эта «гипотеза соматических маркеров» утверждает, что эмоции необходимы для принятия человеческих решений, особенно во время быстрого интуитивного принятия решений того типа, который соответствует обучению с подкреплением. Поэтому более реалистичная и реалистичная система принятия решений, будь то для роботов, неигровых персонажей видеоигр или других воплощенных агентов, должна всесторонне учитывать эмоции и то, как они взаимодействуют с системой принятия решений агента.

Что касается парадигмы обучения с подкреплением, подумайте о том, насколько сложно мозгу понять, какой вес придавать изученной стратегии по сравнению с случайной? На такие вопросы, как «Насколько я доволен своей нынешней работой, или мне лучше будет заключить союз с новой компанией?» редко есть легко поддающиеся количественной оценке решения. Когда мы задаем себе эти трудные вопросы, мы, вероятно, ищем в своих эмоциях какое-то направление, какое-то внутреннее чувство, которое укажет нам правильное направление. Многие нейробиологи теперь считают, что наши эмоции, возможно, частично эволюционировали, чтобы направлять такие решения, чтобы сигнализировать нам, насколько мы уверены в возможном результате действий, доступных нам. Таким образом, эмоции могут иметь свое эволюционное происхождение в рамках парадигмы обучения с подкреплением. Исследователи Йост Брукенс, Элмер Джейкобс и Католийн М. Йонкер из Делфтского университета уже добились значительного прогресса в разработке таких математических конструкций для радости, горя, надежды и страха (Joost Broekens, 2015). Эти уравнения эмоций являются отправной точкой для создания системы поведения, основанной на функционально эквивалентных эмоциях, которые наблюдаются у людей и других животных.

Одно из преимуществ эмоций - они позволяют нам сравнивать решения по градиенту. Когда я испытываю очень сильное чувство страха перед доступным мне действием, моя интуитивная система обучения с подкреплением сигнализирует о высокой степени уверенности в плохом исходе этого конкретного действия. Если вы решаете, предпринять ли действие эксплуататорское или исследовательское, такой градиент ощущений также может направить человека к выбору с лучшим результатом. Если я не испытываю сильных эмоций по поводу доступных мне вариантов, возможно, исследовательский выбор будет лучше, чем эксплуатационный. Эта логика уже была подтверждена несколькими исследованиями обучения с подкреплением, демонстрирующими, что алгоритмы RL, оснащенные методом измерения их собственной «эмоциональной неопределенности», работают лучше, чем алгоритмы, использующие простой эпсилон-жадный подход к компромиссу между разведкой и эксплуатацией. Таким образом, помимо того, что мы сигнализируем о положительных или отрицательных ассоциациях в отношении различных доступных нам стратегий, эмоции могут быть частью механизма, который направляет наш компромисс между исследованием и эксплуатацией. Наконец, эмоции также могут играть роль в переключении между интуитивным принятием решений в Системе 1 и рассуждением, основанным на моделях Системы 2. То есть, когда мы подвергаем сомнению свои эмоции и обнаруживаем, что у нас действительно нет сильных «инстинктивных ощущений» по поводу конкретных вариантов выбора, которые нам доступны, мы можем решить переключиться с Системы 1 на принятие решений по Системе 2. То есть мы можем переключиться с быстрого эмоционального принятия решений на тот, в котором мы кропотливо подсчитываем плюсы и минусы различных вариантов, используя такую ​​модель, как анализ затрат и выгод. Хотя описанная здесь система поведения не включает в себя такой механизм переключения между обучением с подкреплением на основе модели и обучением без подкрепления на основе модели, есть надежда, что в будущих версиях это будет сделано.

В этом обзоре системы поведения, основанной на эмоциях, мы подробно рассмотрим ее реализацию, которая в настоящее время доступна на платформе разработки игр Unreal Engine 4 и доступна на UE4 Marketplace. Хотя подробное понимание обучения с подкреплением и, в частности, Q-обучения не требуется для использования этой системы AI Emotions, оно будет чрезвычайно полезным. Более того, вся схема эмоций построена на основе реализации Q-обучения, доступной в настоящее время на рынке Unreal, поэтому знакомство с этими схемами, вероятно, окажется полезным для понимания системы поведения эмоций. Я не собираюсь подробно описывать основную логику Q-обучения, которую можно получить из Q Learning package, однако я попытаюсь прояснить элементы Q-обучения, которые взаимодействуют с системой AI Emotions.

Важнейший аспект обучения с подкреплением применительно к системе эмоций ИИ заключается в том, что агент делит свое время между двумя видами деятельности - исследованием и использованием. Во время исследования агент собирает информацию о своей среде и выносит оценочные суждения относительно пар «Состояние - действие», в данном случае с помощью уравнения, называемого алгоритмом обучения Q. После определенного количества времени, потраченного на изучение, он затем использует эти оценочные суждения, которые он накопил о парах действий состояния, чтобы определить лучший курс действий на этапе эксплуатации. Механизм и соотношение для переключения между разведкой и разработкой были предметом многих исследований под названием компромисс между разведкой и разработкой. В системе AI Emotion механизм, управляющий переключением, является функцией эмоционального состояния агента, а именно, чувства агента неуверенности.

Сопоставление эмоциональных состояний с сигналом обучения с подкреплением

Обучение с подкреплением дает агенту возможность делать оценочные суждения относительно пар состояний и действий на основе прошлого опыта и будущих ожиданий. Затем агент может использовать эти оценочные суждения для принятия стратегически выгодных решений. Для выполнения таких оценок значения агент использует сигнал ошибки, который соответствует разнице между ожидаемым значением пары действий состояния и фактическим значением пары действий состояния после того, как это произошло. Ожидания основаны на прошлом опыте, а новые данные основаны на текущем опыте. Поэтому агент постоянно обновляет ожидания, основываясь на своем текущем опыте, а затем использует их, чтобы заглянуть в будущее и сформировать новые ожидания. Механизм формирования этих ожиданий применительно к системе эмоций - это алгоритм обучения Q, приведенный ниже:

Q (состояние, действие) = R (состояние, действие) + Gamma * Max [Q (следующее состояние, все действия)]

Где Q (S, A) - это пара действий состояния из таблицы Q, R (S, A) - пара действий состояния из таблицы вознаграждений, гамма - это ставка дисконтирования в будущем, а Max [Q (следующее состояние, все действия)] - это прогнозируемый термин, который фиксирует ожидаемое значение пары наилучшее состояние действия сразу на один шаг вперед в будущем. Поэтому агент смотрит вперед, чтобы решить, как он ценит настоящее. Это, в свою очередь, позволяет ему использовать обратную индукцию для распределения некоторого вознаграждения, полученного в будущем, по парам действий состояния, которые привели его к его целевому состоянию, и, таким образом, придумать способ присвоения значений этим промежуточным шагам.

Если мы предполагаем, что эмоции напрямую соответствуют оценочным суждениям и стимулам окружающей среды, мы можем сопоставить эмоциональные состояния с сигналом обучения с подкреплением и, в свою очередь, использовать эти эмоциональные состояния, чтобы помочь найти компромисс между эксплуатационными исследованиями. Это двунаправленная система. В этом случае мы будем использовать алгоритм Q-Learning для сопоставления эмоций радости, дистресса, надежды, страха, удовлетворения, разочарования и неопределенности. Подобные конструкции были подтверждены исследованием Делфтского университета, показавшим, что этот метод воспроизводит психологическую и поведенческую динамику эмоций у людей. Хотя люди обладают более широким спектром эмоций, чем предлагаемые здесь, есть надежда, что это станет полезной отправной точкой для будущих дополнений к системе AI Emotions.

Моделирование радости и горя

Радость и горе - первые эмоции, которые появляются у младенцев, и, вероятно, будут иметь близкие следствия у многих других видов млекопитающих. Мы основываем наши определения радости и страдания на модели эмоций OCC, впервые предложенной Ортони, Клором и Коллинзом (Ortony et al. 1988). В модели OCC радость воспринимается как удовольствие от желаемого события, а дистресс переживается как неудовольствие от нежелательного события. Это полезные определения с точки зрения Q-обучения, поскольку у нас уже есть пары действий состояния, разделенные на «награды» и «наказания (когда вознаграждение, встречающееся в окружающей среде, отрицательное).

Хотя заманчиво просто сделать радость функцией любой награды, полученной в окружающей среде, такой как сбор боеприпасов или получение бонуса здоровья, ситуация более сложная. Радость связана не только с опытом получения вознаграждения агентами, но и с их ожиданием награды. Как говорят французы, «лучшая часть любовного романа - это первая ступенька вверх по лестнице». Часто ожидание вознаграждения может быть больше, чем само вознаграждение. Радость также во многом зависит от предыдущего состояния, из которого мы пришли. Если я нахожусь в состоянии высокой ценности, а затем перехожу в состояние немного более низкой ценности, это, вероятно, будет происходить совсем иначе, чем переход из состояния чрезвычайно низкой ценности в это вторично хорошее положение. То есть радость также зависит от того, как я ценю предыдущее состояние, из которого я выхожу. Наконец, мы знаем, что награда, повторяемая слишком часто, теряет свой блеск. То есть мы привыкаем к награде, и она приносит все меньше и меньше радости по мере того, как мы получаем ее каждый раз. Подводя итог, мы можем концептуализировать это математически как:

Радость = (Награда от окружающей среды + наше ожидаемое значение этой награды - наша ценность предыдущего состояния, в котором мы находились) * термин неопределенности, отражающий наш уровень уверенности в том, что пара действий текущего состояния будет генерировать вознаграждение. Чем меньше мы уверены, тем больше радости нам это приносит.

Теперь, включив Q-обучение, мы можем заменить некоторые из этих терминов из приведенного выше уравнения радости их эквивалентами Q-обучения:

Радость = (R (состояние, действие) + Q (состояние, действие) - Q (состояние, действие для пары действий в предыдущем состоянии) * Срок непредвиденности

Как рассчитать срок непредвиденных обстоятельств, нет единого мнения. Для представленной здесь системы эмоций ИИ я использовал среднее значение предыдущих ошибок для текущей пары SA. Поскольку среднее значение этой ошибки уменьшается при повторных испытаниях, агент становится более «уверенным» в результате этой пары SA и, следовательно, получает меньше удовольствия от любого вознаграждения, которое следует из него.

До сих пор мы не упоминали о бедствии, которое на самом деле не требует дополнительных собственных вычислений, поскольку выводится точно так же, как и радость, но возникает, когда результаты уравнения радости отрицательны. Это может быть связано либо с тем, что агент столкнулся с отрицательной наградой в окружающей среде (также известной как наказание), либо он перешел из состояния с высоким значением Q в сравнительно более низкое.

Моделирование надежды и страха

После радости и печали, надежда и страх - это следующие эмоции, которые проявляет человеческий младенец. Если мы предположим, что надежда и страх требуют предвидения положительных и отрицательных результатов, то такой порядок возникновения имеет смысл с концептуальной точки зрения. Чтобы предвосхитить надежду или страх, нужно прежде всего иметь представление о радостном или печальном результате, которого он ожидает. Надежда и страх - это ожидание награды и наказания соответственно. Модель эмоций OCC определяет надежду как удовольствие, возникающее в результате перспективы желаемого события, и страх как неудовольствие в результате перспективы нежелательного события. Так же, как радость и горе, надежда и страх - две стороны одной медали. С точки зрения Q-обучения их также намного проще вычислить. Надежда - это ожидаемое значение пары действий состояния до ее завершения, а страх - это ожидаемое значение пары действий состояния, когда предполагается, что она имеет отрицательный результат (наказание). С надеждой и страхом мы смотрим в будущее в ожидании ожидаемого результата, основываясь на нашем предыдущем опыте, а именно для этого и предназначено обучение с подкреплением. Это естественно следует из структуры обучения с подкреплением, которая использует ожидания для формирования оценочных суждений. Математически надежда и страх могут быть получены из алгоритма обучения Q как:

Надежда = Q (Состояние, Действие) до завершения рассматриваемого Q (Состояние, Действие)

Страх = Q (Состояние, Действие) до завершения Q (Состояние, Действие) и когда Q (S, A) отрицательно

В отличие от радости и горя, надежда и страх не приучают, а скорее расцветают заново, независимо от того, как часто повторяется этот опыт. Не капля воды на лбу сводит человека с ума в китайском водяном фонарике, мы можем привыкнуть практически к любому радостному или тревожному ощущению. Скорее всего, человека сводит с ума ожидание следующей капли воды. Мы не привыкли бояться или надеяться. Однако страх имеет тенденцию к самогашению, о чем свидетельствует тот факт, что агент будет выборочно избегать таких пар состояний и действий, которые приведут к нему в будущем, в то время как надежда самоутверждается, поскольку агенты будут искать обнадеживающие переживания снова и снова.

Неопределенность моделирования

Многие млекопитающие, в том числе и люди, выражают чувство неуверенности. Хотя это не отдельная эмоция, как определено в модели OCC, в качестве рабочего определения мы можем описать ее как чувство уверенности или ее отсутствия в отношении результата решения. В представленной здесь системе эмоций искусственного интеллекта это проявляется как наш уровень уверенности в предсказании исхода пары «Государственное действие». Таким образом, мы можем быть обнадеживающими и уверенными, или обнадеживающими и неуверенными, или напуганными и неуверенными, или напуганными и уверенными. В этом смысле он добавляет цвета нашим предсказаниям, придавая им уровень уверенности. Это отличается от значения надежды или страха, которое соответствует ожидаемому значению Q пары состояние-действие.

Неопределенность здесь рассчитывается двумя способами для системы эмоций ИИ. В одной учетной записи у нас есть уровень уверенности в отношении результата конкретной пары действий состояния. Это функция нашего исторического уровня точности в предсказании исхода этой пары действий состояния. В этом случае мы берем среднее значение наших исторических ошибок и усредняем их по нашей самой последней ошибке. Хотя этот термин неопределенности можно использовать, чтобы добавить еще одно измерение к нашим расчетам надежды и страха, мы используем его вместо этого как способ смоделировать привыкание к радости и несчастью. То есть радость и горе рассеиваются в зависимости от нашего уровня уверенности в их исходе. Чем больше я уверен в положительном исходе, тем меньше радости мне он приносит. Возьмем, к примеру, игровой автомат - это неуверенность, которая делает радость от выплаты столь полезной. Если бы каждый раз, играя в однорукого бандита, я мог с полной уверенностью предсказать, что будет дальше, игра стала бы скучной. Подводить итоги:

Местная неопределенность = (среднее значение исторических ошибок для конкретного Q (S, A) + самая последняя ошибка для этого Q (S, A)) / 2

Второй способ моделирования неопределенности - это термин, который объясняет глобальное чувство неуверенности агента в отношении всей среды, в которой агент принимает стратегические решения. Человек может чувствовать высокий общий уровень уверенности в конкретном действии, но все же неуверен в своей общей способности принимать правильные решения. Их глобальное доверие может быть высоким, но их доверие на местном уровне может быть низким, или наоборот. Этот второй расчет неопределенности представляет собой среднее значение всех ошибок прогнозирования, с которыми агент столкнулся на сегодняшний день. Таким образом, он отражает общее чувство компетентности агентов. Именно этот термин имеет решающее значение как сигнал обратной связи для руководства стратегией обучения агентов Q, а именно, компромисс между исследованием и эксплуатацией. После каждой пары действий состояния агент должен решить, предпринять ли исследовательский или эксплуатационный ход, и мы можем связать это решение с их уровнем неопределенности глобального уровня. Чем более неопределенным, тем больше агент исследует. Чем более он определен, тем больше времени он тратит на эксплуатацию. Таким образом, эмоциональная система возвращается к алгоритму обучения Q, направляя его в выгодном направлении. Подобные методы использовались в ряде исследований, демонстрирующих преимущества такой системы эмоциональной обратной связи. Для нашей цели мы моделируем глобальную неопределенность как:

Глобальная неопределенность = (Сумма всех ошибок Q (S, A) на сегодняшний день / Количество эпизодов действия состояния) / Максимальная степень ошибки * 100.

Мы делим на максимальную степень ошибки, чтобы нормализовать наши результаты, и умножаем на 100, чтобы получить процент от 1 до 100.

Затем мы можем установить пороговое значение эксплуатации путем вычитания этого глобального значения неопределенности из 100 и использовать генератор случайных чисел и условный оператор ›= для управления частотой, с которой агент перемещается между разведкой и эксплуатацией.

Порог эксплуатации = 100 - глобальный уровень неопределенности (среднее значение всех ошибок)

Моделирование удовлетворения и разочарования

При моделировании удовлетворения и разочарования мы немного отклоняемся от определений эмоций OCC. В то время как в модели OCC удовлетворение и его противоположность, «подтвержденные страхи» рассматриваются как дифференцированные типы надежды и страха, я считаю, что они имеют больше общего с радостью и страданием. А именно, удовлетворение и разочарование являются точными следствиями радости и горя, за исключением того, что они возникают на этапе эксплуатации обучения с подкреплением, а не на этапе исследования. То есть, когда мы принимаем стратегическое решение, основываясь на прошлом опыте, результаты либо вызывают удовлетворение, либо разочарование. Это отличается от того, когда мы предпринимаем исследовательское действие - бросаем кости на что-то новое, что приводит либо к радости, либо к несчастью.

Чтобы понять интуицию, стоящую за этим, вспомните, когда вы впервые сели на велосипед, опасения, которые превратились в экзальтацию, когда вы впервые удачно нажали на педаль. Согласно используемому здесь определению, эта эмоция была радостью, потому что действие было исследовательским и не имело прецедентов. Сравните это с ощущением после одного или двух успешных кругов на велосипеде. Вы чувствуете удовлетворение после каждого успешного эпизода, потому что действие больше не является исследовательским, и его поведение зависит от прошлого опыта. Теперь у этого есть прецедент, и мы используем этот прецедент для принятия эксплуататорских решений, которые приводят к удовлетворению или разочарованию. С точки зрения того, как мы испытываем удовлетворение и разочарование, во всем остальном они параллельны радости и страданию. Обе эмоциональные группы в решающей степени зависят от предыдущего состояния, в котором мы находились, от того, как часто ощущение повторялось в этих конкретных обстоятельствах, а также от того, какое значение мы ожидали для этой пары состояний и действий.

Хотя это серьезное отклонение от некоторых предыдущих определений удовлетворения и разочарования, я считаю, что это разумное определение, ведущее к эмоциям ИИ, которые становятся более узнаваемыми и интуитивно понятными.

Некоторые примечания по развертыванию системы эмоционального поведения

Контекст, в котором здесь развертывается система AI Emotions, представляет собой головоломку соответствия образцу, в которой NPC узнает, что он должен активировать переключатель в игровой среде одновременно с включением света, чтобы получить еду. награда »в другом месте. Подобные головоломки использовались в большом количестве экспериментов по обучению животных, исследующих инструментальные и ассоциативные способности к обучению. Ключевым моментом является то, что агент должен научиться предсказывать, что он может предпринять действие для получения награды только при определенных обстоятельствах, в данном случае, когда горит свет, и он сначала касается переключателя, обозначенного конусом, а затем продолжает действовать. в миску с едой, обозначенную золотой сферой. То же действие, предпринятое при выключенном зеленом индикаторе, не принесет вознаграждения. Эмоции отображаются в контексте вознаграждений, которые он получает от взаимодействия с этой средой.

В этом примере нам нужен массив 8 на 8 как для таблицы вознаграждений, так и для таблицы Q. Первое значение в каждой таблице относится к одному из 8 возможных состояний, в которых может находиться агент, заданных 3 сферами и 1 конусом. Каждое из этих 4 состояний может существовать с включенным или выключенным светом, что численно соответствует 8 уникальным состояниям. Второе значение относится к действию, которое агент выполняет из этого состояния, другими словами, к местоположению, в которое NPC отправился следующим.

Таким образом, если агент был в состоянии 4 (Конус), а затем перешел в состояние 7 (миска с едой), он будет относиться к паре состояние-действие, заданной R (4,7) и Q (4,7). для таблиц вознаграждений и Q соответственно. Имейте в виду, что таблица Q будет обновляться во время матча для выборочной задачи в соответствии с алгоритмом обучения Q, в то время как таблица вознаграждений остается неизменной во время игры. Таблица вознаграждений инициализируется значениями 0, за исключением одной пары действий состояния вознаграждения, то есть R (4,7). Таблица Q инициализируется всеми нулями.

Agent Dynamics

Агенты, оснащенные системой AI Emotions, сначала будут тратить время исключительно на изучение своего окружения, то есть на случайные действия. Их эмоции до обнаружения каких-либо наград или наказаний в окружающей среде нейтральны, что представлено нейтральным смайликом. После получения награды, в данном случае миски с едой после активации конуса, чувство неуверенности агента будет быстро уменьшаться, и он начнет использовать свои новообретенные знания, совершая поездки к миске с едой и обратно. Это первоначально быстрое уменьшение неопределенности представляет собой ложную уверенность, порожденную успешным предсказанием нескольких пар действий нейтрального состояния в игре. Агент еще не имеет четкого представления о структуре вознаграждения окружающей среды по отношению к свету, конусу и кормушке. Таким образом, за этим периодом обычно следует короткий период повышенной неопределенности, поскольку агент делает несколько неверных прогнозов относительно комбинации миски, света и рожков. Этот кратковременный всплеск неопределенности постепенно спадает, приближаясь к нулю по мере того, как агент делает все более правильные эксплуататорские прогнозы. Надежда останется, несмотря на потерю всякого удовлетворения или радости.

Хотя агенты, использующие эмоциональную систему, как правило, сходятся к глобальному решению проблемы окружающей среды быстрее, чем агенты, использующие другие методы переключения исследования / эксплуатации, это происходит за счет промежуточных суеверий. В таких случаях вы можете заметить, что агент включает некоторые ненужные действия в свою стратегию эксплуатации, не считая их «суевериями». Поскольку разведка никогда полностью не сводится к нулю, они в конечном итоге отсеиваются. Это также согласуется с данными о принятии решений человеком. Рассмотрим ритуалы перед игрой у спортивных игроков, которые включают в себя такие вещи, как ношение счастливой пары носков.

Можно заметить, что агент часто выражает разочарование или беспокойство сразу после похода к миске с едой, даже если он действует «правильно», немедленно возвращаясь к конусу, чтобы снова активировать миску с едой. Это связано с тем, что агент переходит из состояния с высокой наградой в состояние со сравнительно низкой стоимостью, вызывая бедствие. Это интуитивно понятно. После пикового переживания люди обычно испытывают большее чувство тревоги или скуки, когда они «спускаются» с пика своего предыдущего опыта. Отчасти это может быть связано с тем, как наши эмоции взаимодействуют с нашей системой обучения с подкреплением.

Через некоторое время агент полностью привыкнет к удовлетворению, которое он получает от миски с едой, и перестанет проявлять какие-либо эмоции, даже если он продолжает принимать «правильные» эксплуатационные решения.

В среде, основанной на наказании, все немного иначе. Присваивая паре действий состояния в таблице вознаграждений отрицательное значение, мы можем создать ситуацию, в которой агенты чувствуют беспокойство и страх, но быстро учатся избегать этого действия. По мере того, как неопределенность уменьшается с дальнейшим исследованием, он по умолчанию будет оставаться в углу, поскольку он узнает, что оставаясь в одном месте, он никогда не получит наказания.

Не стесняйтесь оставлять вопросы, комментарии или критические замечания.