Здравствуйте, после того, как я привлек ваше внимание, давайте сначала для ясности переключим популярный «искусственный интеллект» (AI) на «машинное обучение» (ML). Оба слова сейчас очень популярны и часто используются как синонимы, что может привести к некоторой путанице и неправильным ожиданиям. Давайте придерживаться следующего определения:

Искусственный интеллект - это обширная область компьютерных наук, из-за которой кажется, что машины обладают человеческим интеллектом.

Машинное обучение - это, по сути, «разметка вещей», когда вы объясняете свою задачу примерами, а не инструкциями - вы передаете данные машинам и позволяете им разбираться в ней самостоятельно.

Теперь мы можем начать.

С тех пор, как я провел некоторое исследование для своей диссертации об использовании машинного обучения для распознавания эмоций путем анализа выражений лица - и не рекомендовал использовать его в качестве заключения, хотя оно «сработало», это мучительное ощущение того, что что-то действительно идет не так в больших масштабах, никогда не покидало меня. . Все больше и больше стартапов, а также крупных компаний в отрасли разрабатывают продукты, основная функциональность которых основана на опасно упрощенной, даже ошибочной теории человеческих эмоций. (Более подробные сведения см. В разделе «Проблема со статус-кво»). Эта статья призвана дать более глубокое понимание проблемы, сначала пытаясь сформулировать ее, а затем погрузиться в ее суть - только затем, когда проблема понятна, можно приступать к поиску решения.

Эта статья имеет следующую структуру:

  • Предисловие
  • Проблема со статус-кво
  • Понимание проблемы, которую мы хотим решить
  • Идеи по новому подходу
  • Заключение
  • Цитаты и ссылки

‌ Недавно я закончил работу над книгой, которая в конечном итоге побудила меня написать эту статью. « Как возникают эмоции », написанная Лизой Фельдман Барретт, оказалась бесценным источником концепций и идей, подкрепленных научными данными. Если вы никогда не слышали о теории сконструированных эмоций, сначала взгляните на это. На эту статью повлияли идеи, полученные в результате ее работы, и я воспользуюсь многими из них, чтобы подтвердить свои опасения по поводу существующего положения вещей и получить ряд вопросов, которые нам следует задать вместо этого.

«Если люди используют неправильное понимание эмоций, они могут пострадать, и другие люди тоже могут пострадать» - Лиза Фельдман Баретт

Эта объемная статья не направлена ​​на то, чтобы отбросить идею использования машинного обучения для задач распознавания эмоций. Это должно остаться, поэтому моя цель как разработчика с ноющей совестью - подумать о том, как это лучше спроектировать. Чтобы определить правильные вопросы, нам сначала нужно понять, что в настоящее время идет не так.

Предисловие:

Вы стоите на пограничном контроле страны X после долгого изнурительного перелета. Вы замечаете вокруг себя несколько камер под разными углами, но не задумываетесь о них, в конце концов, это аэропорт, даже новенький. Наконец-то ваша очередь. Офицер пристально смотрит на вас, прежде чем вы даже успели передать ему свои документы. Вы слегка отступаете, пытаясь успокоить себя, что у него, вероятно, был плохой день. Прежде чем вы узнаете, что происходит, уже подошел пограничный контроль. Утомившись и раздражаясь, вы пугаетесь и расстраиваетесь, дико жестикулируя, что ухудшает ситуацию. Вы чувствуете крепкую хватку, и вас сопровождают в очереди ..

Через несколько довольно неприятных часов вам наконец разрешили уйти. Измученный и злой, вы яростно думаете, что, черт возьми, только что произошло. Внезапно вы вспоминаете, что читали об этой новой системе обнаружения угроз на основе искусственного интеллекта, которая использует выражения лица и положение тела, чтобы помочь офицерам обнаруживать потенциальные угрозы. Может быть ..?

Если вам было неудобно читать это, значит, мы в одной лодке. Системы распознавания эмоций на основе Ml уже внедрены в производство в различных областях. Если мы не переосмыслим наш подход, описанный выше сценарий может очень скоро стать нашей реальностью.

Теперь вы можете указать, что, пока в конце принимает решение человек, все должно быть в порядке. Но что, если, как в приведенном выше примере, это не удается? Или, что еще хуже, сама модель ошибочна, а ее ошибочные прогнозы принимаются как объективные, потому что они были сделаны, казалось бы, беспристрастной машиной?

Но, спросите вы, почему вы так убеждены в том, что виновата модель? В конце концов, используемый процесс распознавания эмоций хорошо отработан и подтвержден бесчисленными исследованиями!

Это действительно правильный вопрос, поэтому нам нужно сначала рассмотреть некоторую теорию.

Проблема со статус-кво

«Мир, представленный данными ваших тренировок, - единственный мир, в котором вы можете ожидать успеха» - Кэсси Козырков

Начнем с, казалось бы, бесспорного пункта. До сих пор я сознательно использовал термин система обнаружения эмоций на основе ml, потому что это одна из самых распространенных фраз, используемых для описания подобных инструментов. Проблема с этой и подобными фразами заключается в том, что все они в какой-то момент используют слова «распознавание» или «обнаружение». Оба эти слова предполагают скорее предположения, чем предположения, небольшую деталь, которая на самом деле оказывается вершиной айсберга.

Это заблуждение уходит корнями в классический взгляд на эмоции, наиболее популярным из которого является базовая теория эмоций. Эта теория в основном предполагает, что эмоции - это нечто, что имеет отпечаток пальца где-то в мозгу, что они выражаются способом, который может быть обнаружен, и предполагает существование уникального набора универсальных базовых эмоций. во всем мире населения. Идея о том, что наши лица являются ключом к доступу к эмоциям объективно и точно, восходит к книге Чарльза Дарвина Выражение эмоций в человеке и животных ». Человеческое лицо может перемещаться 42 различными мышцами, что приводит к различным движениям, таким как ухмылки, гримасы, моргания, приподнятые брови и т. Д., Которые мы видим каждый день. Согласно классическому взгляду на эмоции, каждая эмоция проявляется в виде определенного паттерна движений - выражения лица. Таким образом, счастье проявляется в улыбке, а гнев вызывает морщинистые брови и морщинки на лице. выражения, таким образом, рассматриваются как часть универсального отпечатка пальца, который несут базовые эмоции. Было проведено множество исследований, которые, по-видимому, впервые подтвердили эту точку зрения, например, очень популярное в 1960 году, проведенное Сильвианом С. Томкинсом, Кэрроллом Э. Изардом и Полом Экманом. Они создали набор, инструктируя актеров отображать преувеличенные черты того, что считалось наиболее четкими и сильными сигналами для основной основной эмоции.

Эти виды изображений затем использовались для оценки того, насколько хорошо люди воспринимают движения лица как выражение эмоций [Изард, 1971], [Томкинс, Сильвиан и Маккартер, 1964].

Приведенный ниже метод до сих пор считается стандартом:

Этот метод исследования был использован, чтобы показать, что люди со всего мира постоянно сопоставляют одни и те же слова-эмоции (переведенные на их язык) с этими позирующими лицами. Это очень популярное исследование, проведенное на людях форе, проживающих в Папуа-Новой Гвинее и мало подверженных влиянию эмоций. западный мир. Более поздние исследования, казалось, повторили эти результаты, см., Например, [Ekman & Friesen, 1971; Экман, Соренсон и Фризен, 1969]. На основании этих данных ученые пришли к выводу, что распознавание эмоций универсально.

Однако другие ученые начали беспокоиться, что это может быть недостаточно точным, поскольку это требует человеческого суждения, и вместо этого попытались проверить универсальные эмоциональные отпечатки пальцев с помощью лицевой электромиографии (ЭМГ). Оказывается, результаты представляют собой серьезную проблему для классического взгляда на эмоции, поскольку исследование за исследованием показывали, что движения мышц не достоверно указывают на эмоциональные проявления гнева, а счастье, таким образом, не может служить предсказуемым отпечатком пальца. Что можно обнаружить, хотя это различие между приятным и неприятным аффектом. (См. Понимание проблемы, которую мы хотим решить). Есть еще больше исследований, результаты которых ставят под сомнение классическую точку зрения. Чтобы проверить, действительно ли мимика универсальна, было проведено несколько исследований на новорожденных и младенцах. Кроме того, если необходимо найти универсальность, удаление слова эмоция из основного метода эмоций не должно повлиять на результаты, но это имело место в нескольких исследованиях.

До сих пор было установлено, что контекст имеет гораздо большее значение для распознавания любых эмоций, чем это принято в классических методах.

Как ни странно, кажется, что классические методы (см. Рис. 2 и рис. 3) на самом деле создали контекст интерпретации, предоставив на выбор эмоциональные слова и обрамления. Это привело к тому, что участники узнали соответствующие ассоциации между выражением лица и эмоциями, создав самореализующееся пророчество универсальности. В последнее время было проведено множество исследований, направленных на дальнейшее изучение основных методов; для более глубокого освещения см., Например, [Elfenbein, Anger and Ambady, 2002] или прочтите [Feldman Barrett. (2017) Миф об универсальных эмоциях в Как создаются эмоции, стр. 42–56.]

Как мы видим, кажется, что есть достаточно доказательств, чтобы переосмыслить применение метода основных эмоций, но он по-прежнему широко используется по умолчанию в наших правовых системах, образовательных системах и наших моделях машинного обучения. На рисунке 4 показан пример расширенного набора данных CK + [Lucey et al, 2010], который популярен среди сообщества машинного обучения.

Как инженеры по машинному обучению, мы любим распознавание образов, и я считаю, что это наша сила и слабость. Мы обучаем наши модели различать альтернативы статистически (например, для многих случаев страха и гнева), чтобы они могли надежно предсказывать будущие случаи.

Базовая теория эмоций кажется почти идеальной для построения работающей модели машинного обучения - за исключением того, что, как мы видели выше, она постоянно дает нам неправильные ярлыки.

Выражаясь жестко с целью лучшего понимания (с моими искренними извинениями перед учеными, приложившими благородные усилия для создания этих теорий) - используя наборы данных, основанные на базовой эмоциональной теории, мы неизбежно сталкиваемся с GIGO

Понимание проблемы, которую мы хотим решить

Теперь, когда мы признаем, что эта проблема реальна, первый разумный вопрос, который следует задать: «Как исправить входные данные?»

Чтобы исправить входные данные, мы должны иметь представление о том, как эти данные могут выглядеть. Для этого нам нужно сначала понять нашу проблему.

Наш исходный вопрос с самого начала: «Как распознать эмоции?». Как видно выше, этот вопрос ведет к плохой адаптации, поэтому давайте разберем его и попробуем вместо этого ответить на следующий вопрос: «Что подразумевается под эмоциями?». Очевидно, что текущего значения по умолчанию недостаточно для наших нужд, поэтому давайте попробуйте вместо этого другое определение:

Эмоции создаются из концепций, которые представляют собой прогнозы, которые придают смысл вашему влиянию на окружающую среду.

В нашем текущем состоянии важны ни метауровень концепций, ни прогнозы (пока). Аффекты - это компоненты, из которых состоят эмоции, поэтому давайте попробуем ответить на этот вопрос: «Что подразумевается под аффектом?»

Аффект - это состояние, определяемое колебаниями между приятным и неприятным, а также между спокойным и нервным, которые сами по себе считаются основными чувствами.

Итак, деконструируя вопрос, мы натыкаемся на аффект и основные чувства, которые на самом деле в некоторой степени можно измерить и создать в научной среде. Прежде чем мы начнем копать, давайте сначала посмотрим, сможем ли мы лучше понять нашу основную проблему. Что мы знаем на данный момент:

  • Сами эмоции невозможно измерить или обнаружить, они переживаются человеком или воспринимаются другими в результате ошибок предсказаний и предсказаний. На их выражение сильно влияет текущий аффект, культурный фон и ситуативный контекст. Вариация - это норма.
  • Когда мы разбираем компоненты, которые могут привести к возникновению эмоций, мы натыкаемся на вещи, которые могут быть более надежными.

Итак, давайте перефразируем главный вопрос на «Как обнаружить аффект?». Прежде чем мы наконец рассмотрим некоторые практические идеи, давайте попробуем понять, что мы можем и чего не можем делать, если нам удастся создать обнаружение аффектов на основе ml.

Я не могу сказать наверняка, будучи специалистом по информатике, а не психологом, но я надеюсь, что, обнаружив аффект, мы сможем уйти от опасно упрощенных предположений и избавиться от ошибочных предположений для уверенности. Вместо этого мы могли бы подумать о том, как использовать эти лучше обнаруживаемые базовые компоненты для создания обоснованных предположений и работать над тем, чтобы действовать в условиях неопределенности. ‌

Неопределенность пугает многих, и, учитывая, что наш мозг буквально оптимизирован для создания смысла, это неудивительно. Большинство людей, в том числе и я, предпочитают определенность. Мы склонны принимать довольно забавные (или опасные) решения, основываясь на этой тенденции. Эффект уверенности, представленный Амосом Тверски и Даниэлем Канеманом (Мышление, быстро и медленно - еще одно, что, по моему мнению, обязательно нужно прочитать) - лишь один из многих примеров, подтверждающих это предпочтение. Но есть целые отрасли науки, которые занимаются как принимать более правильные решения в условиях неопределенности. (Например, статистика и интеллект принятия решений) ‌

Дьявол, которого ты знаешь, лучше дьявола, которого ты не знаешь. Нам необходимо использовать соответствующие инструменты для решения стоящих перед нами проблем, и если проблема, которую нам бросают, заключается в «обнаружении эмоций», это означает, что мы можем причинить реальный вред, предоставив упрощенное и просто неправильное утверждения об уверенности . Кроме того, это просто глупое и уродливое решение. (С наилучшими пожеланиями от моего внутреннего разработчика). Как сделать лучше?

Идеи по новому подходу

Давайте вернемся к нашему переформулированному вопросу: «Как обнаружить аффект?». (На самом деле это только мой мозговой штурм, так что имейте это в виду.)

Какие источники мы могли бы использовать для генерации данных?

  • FACS - это система кодирования мимических движений отдельных лицевых мышц. Это общепринятый стандарт выражения эмоций, который также популярен среди аниматоров. Если мы поменяем местами заключение эмоционального выражения и вместо этого попытаемся сопоставить кодировку FACS для воздействия, это может быть первым шагом в правильном направлении.
  • Используйте позу и движения тела в качестве дополнительных источников (если таковые имеются). Я не знаю достаточно о пригодности этого (пока), но мне приходит в голову, что он может добавить ценную информацию.
  • Сенсорный ввод из окружающей среды (например, свет, температура). Существует множество теорий и исследований, показывающих, как эти факторы влияют на наш аффект, поэтому кажется, что стоит добавить еще один потенциальный источник.

Как еще улучшить модели?

  • «Самый важный ингредиент, контекст, труднее всего угадать, и в сообществе ml существует множество подходов, от действительно сомнительных до действительно умных, чтобы выжать его из данных».
  • Поскольку слова являются основным носителем понятий, а контекст можно вывести из понятий, нам, вероятно, придется во многом полагаться на использование языка для изучения информации, специфической для разных культур. Методы, используемые для анализа настроений, многочисленны и, вероятно, являются отличным источником для добавления контекста.
  • Изучение новых подходов, таких как Temporal Convolutional Networks [Hao et al, 2020] или Geometric Deep Learning, также может оказаться весьма подходящим для выделения контекста из данных.

Заключение

Я не буду здесь размышлять об архитектуре модели, оптимизации параметров и обо всем этом, потому что это шаг в будущем. Сначала нам нужно понять пространство проблемы, прежде чем бросать в него формулы и магию. Я надеюсь, что эта статья помогла сделать этот первый шаг.

Мне бы хотелось подумать и узнать об этих технических деталях, но я все еще недостаточно опытен, поэтому, если кто-то с большим опытом в этой области также чувствует вдохновение, чтобы осмыслить эту проблему, ПОЖАЛУЙСТА, сделайте это и поделитесь. Мы нуждаемся в вас.

Цитаты и ссылки

[Экман, Соренсон и Фризен 1969] Экман, Пол, Э. Ричард Соренсон и Уоллес В. Фризен. 1969. «Панкультурные элементы в отображении эмоций на лице. Science 164 (3875): 86–88 ».

[Изард, 1971] Изард, Кэрролл Э. 1971. Лицо эмоции. Восточный Норуолк, Коннектикут: Appleton-Century-Crofts .

[Томкинс, Сильвиан и Маккартер, 1964] Томкинс, Сильван С. и Роберт Маккартер. 1964. «Что и где основные воздействия? Некоторые доказательства теории . Навыки восприятия и моторики 18 (1): 119–158 ».

[Экман и Фризен 1971] Экман, Пол и Уоллес В. Фризен. 1971. «Константы разных культур в лице и эмоциях. Журнал личности и социальной психологии 17 (2): 124–129 »

[Эльфенбейн, Гнев и Амбади, 2002] Эльфенбейн, Хиллари Энгер и Налини Амбади. 2002. «Об универсальности и культурной специфичности распознавания эмоций: метаанализ. Психологический бюллетень 128 (2): 203–235 »

[Lucey et al, 2010] П. Люси, Дж. Ф. Кон, Т. Канаде, Дж. Сараги, З. Амбадар и И. Мэтьюз, «Расширенный набор данных Кон-Канаде (CK +): полный набор данных для единиц действия и выражений, определяемых эмоциями, 2010 IEEE Конференция компьютерного общества по компьютерному зрению и распознаванию образов - семинары, Сан-Франциско, Калифорния, 2010 г., стр. 94–101, doi: 10.1109 / CVPRW.2010.5543262. »

[Hao et al, 2020] Хунъян Хао, Ян Ван, Юди Ся, Цзянь Чжао и Фурао Шен,« Сеть на основе временной сверточной информации для моделирования последовательности , 2020»