Многоагентные сценарии делают максимизацию вознаграждения рискованным. Обсуждение, когда, а не следует ли нам верить в гипотезу вознаграждения.

Дофамин (ниже) занимает центральное место в человеческом опыте. Известно, что он участвует в ощущении текущего удовольствия — это то, что вы испытываете и наслаждаетесь. Дофамин также играет решающую роль в предсказании будущего пожалуйста — это делается при планировании, высвобождая такое же чувство удовольствия, когда вы планируете сделать что-то, что вам нравится. Человеческое тело имеет сверхсложную инфраструктуру, связанную с наслаждением, удовольствием, постановкой целей, размножением и многим другим, что включает в себя эту молекулу.

Попытка смоделировать эффекты дофамина может стать путем к пониманию того, как люди учатся. Этот единственный сигнал является центром моего личного обзора того, как обучение с подкреплением связано с нейронаукой и биохимическими системами (блог подлежит уточнению). Цель заявления о том, что мы можем понять человеческие намерения, «решая» дофамин, во многом схожа с тем, если бы мы могли оптимизировать любую сложную систему на основе одного измеренного сигнала (а закон Гудхарта вытекает из человеческой природы).

Идея о том, что мы можем инкапсулировать все необходимые нам метрики в одну функцию вознаграждения, характерна для современных технологических приложений глубокого обучения. В частности, в обучении с подкреплением существует теория, согласно которой любой агент может научиться решать любую задачу в доступном ему пространстве с помощью подходящей скалярной функции вознаграждения. Эта гипотеза вознаграждения (ссылка) говорит о том, что мы можем свести многоцелевую оптимизацию к скалярной оптимизации для любого агента обучения с подкреплением (часто рассматриваемого как личность). Гипотеза вознаграждения, или Гипотеза в этой статье, выдвигается некоторыми из основателей или RL, поэтому она имеет вес.

Первоначально об этом говорится в Блоге Рича Саттона:

Что все то, что мы подразумеваем под целями и задачами, можно рассматривать как максимизацию ожидаемого значения кумулятивной суммы полученного скалярного сигнала (вознаграждения).

При применении этой методологии к более сложным интернет-системам все действия, которые могут быть предприняты (для многих пользователей), включаются в один и тот же агент, что расширяет масштаб исходной идеи и вызывает споры о ее достоверности. Этот пост предназначен для того, чтобы рассмотреть некоторые ключевые идеи, лежащие в основе гипотезы вознаграждения, и выяснить, где мы должны провести черту в применимости этой гипотезы.

Каковы пределы понимания поведения, которые можно разумно определить с помощью скалярной функции вознаграждения? Вероятно, существует точная функция, описывающая намерения человека в любом масштабе, но она, вероятно, слишком чувствительна к возмущениям, поэтому попытка ее найти принесет больше вреда, чем пользы.

Гипотеза

Гипотеза вознаграждения имеет под собой достойную основу из-за бесконечности действительных чисел и выражений. Сторонники теории говорят, что для одного агента обязательно существует одна высокоточная функция, соответствующая его потребностям. Я не опровергаю существование таких функций, а скорее, стоит ли нам утруждать себя их поиском.

Далее следуют два критических анализа на низком уровне гипотезы (т. е. является ли это разумным утверждением в любых условиях). Во-первых, мы должны рассмотреть, могут ли эти скалярные функции вознаграждения никогда не быть статическими, поэтому, если они существуют, та, которую мы найдем, всегда будет ошибочной постфактум. Кроме того, поскольку существует бесконечное количество возможных функций вознаграждения, также может быть бесконечно сложно найти спецификацию вознаграждения агента. Какой смысл инкапсулировать все возможные вознаграждения в скалярную функцию, если мы знаем, что вряд ли когда-нибудь найдем правильное представление?

Для таких сценариев, как игры, в которых предусмотрен счет и таблица лидеров, функция вознаграждения интуитивно понятна: максимизировать счет. Для агентов с несколькими приоритетами, например. если вы здоровы и делаете карьеру, поиск функции вознаграждения становится более сложной задачей благодаря реляционной оптимизации. Я утверждаю, что для отдельных лиц это по-прежнему более разумно, но оно того не стоит, поскольку мы можем расширить пространство состояния-действия, чтобы легко объяснить мультимодальное поведение. Это означает, что люди могут совершать совершенно разные действия при чтении или тренировке, и они могут вносить свой вклад в функцию вознаграждения соответствующим образом (функция вознаграждения обычно определяется как функция текущего состояния и действия).

Истинные проблемы гипотезы вознаграждения связаны с гораздо более экзистенциальными вопросами:

  • Работает ли это для реляционного вознаграждения: могут ли скалярные функции представлять, как разные люди могут ценить разные вещи, особенно когда эти люди взаимодействуют или системы должны решить, что один человек хочет большего?
  • Контроль и политическая экономия. Стоит ли того, чтобы компания или какая-то машина понимала, диктовала и действовала в соответствии со специально настроенными вознаграждениями? Принимая во внимание все вышесказанное, можно смело сказать, что такие вещи, как коммерческие корпорации, приносят вам пользу, пытаясь учиться и действовать в соответствии как с вашими предпочтениями в отношении вознаграждения, так и с предпочтениями ваших ближайших друзей.

Изучение чужих ценностей не обязательно является нарушением той или иной формы наших социальных целей. Знать, что такая аппроксимация при настройке приведет к ошибкам, и действовать так, как будто полученные награды верны, в любом случае, скорее всего. Когда компании отказываются от метрик, основанных на кликах, понимание целей пользователей является логическим следующим шагом для вовлечения и максимизации ценности.

Недавняя статья Reward is Enough, написанная Дэвидом Сильвером, Сатиндером Сингхом, Дойной Прекап и Ричардом С. Саттоном, имеет значительный вес в этой области благодаря позиции Дэвида Сильвера (возглавлявшего многие из DeepMind RL). за усилия в области игр; некоторые из самых громких успехов МО на сегодняшний день) и Ричард Саттон (создатель области RL в 80-х). По моему мнению, люди, работающие над этими системами, должны более разнообразно рассуждать о том, что значит масштабное использование RL. Да, максимизация вознаграждения, вероятно, полезна во всех этих приложениях, но люди должны думать о границах, красных чертах, конечных целях, достоинстве и т. д.

Многие из утверждений в статье разумны, но утверждения о том, что максимизация вознаграждения — единственная линза, необходимая для моделирования и понимания «социального интеллекта, языка, обобщения», труднее поддержать. Следование этим заявлениям о том, что системы максимизации вознаграждения и оптимизации полезны для проектирования таких реляционных систем, является убедительным заявлением о том, какие структуры должны контролировать нашу жизнь.

(биологические) агенты и скалярная максимизация

Гипотеза о том, что дофамин играет центральную роль в субъективном опыте людей, была выдвинута гипотезой ангедонии (1982):

Гипотеза ангедонии — что дофамин мозга играет решающую роль в субъективном удовольствии, связанном с положительным вознаграждением, — была предназначена для того, чтобы привлечь внимание психиатров к растущим доказательствам того, что дофамин играет решающую роль в объективном подкреплении и побудительной мотивации, связанной с пищей и водой. , вознаграждение за стимуляцию мозга, а также вознаграждение за психомоторные стимуляторы и опиаты.

Дофамин немного более известен сейчас:

Дофамин мозга играет очень важную роль в подкреплении привычек реагирования, условных предпочтений и синаптической пластичности в клеточных моделях обучения и памяти. Представление о том, что дофамин играет доминирующую роль в подкреплении, является фундаментальным для теории зависимости от психомоторных стимуляторов, для большинства нейроадаптационных теорий зависимости и для современных теорий условного подкрепления и предсказания вознаграждения. При правильном понимании это также лежит в основе современных теорий поощрительной мотивации.

Такая стимулирующая мотивация заложена во многих обучающихся агентах как преобразование ожидаемого вознаграждения в параметры, управляющие действием:

Можно привести сильный аргумент в пользу того, что люди действительно ведут себя так, как будто жизнь — это точно настроенная система вознаграждения, в которой приоритет отдается воспроизводству. Генетика и окружающая среда определяют определенное состояние, которое перераспределяет различные приоритеты в дофаминовой цепи.

Наш мозг, вероятно, адаптировался бы к изменениям, с которыми он сталкивается в социальных сетях, довольно быстро, насколько это возможно в пределах его известного поведения, и невообразимо медленно в ходе эволюции. Если бы социальные сети были в пузыре, и наши взаимодействия с ними не влияли друг на друга, это могло бы быть нормально. Принципы предсказания дофамина и скалярной оптимизации агента не работают, когда мы изучаем его в масштабе общества и пытаемся сравнить мотивацию между группами.

Применение оптимизации к реальным решениям

На самом деле этот пост начался с размышлений о конце эры максимизации показателей, основанных на внимании. Оптимизация метрик на основе внимания — это то, как технологические компании используют несколько простых метрик для повышения вовлеченности (в краткосрочной перспективе и постоянно) на своих платформах. Цель состоит в том, чтобы рассмотреть, как системы могли бы лучше сбалансировать и совместно оптимизировать долгосрочные интересы своих пользователей.

На встречах в Беркли, посвященных будущим последствиям использования ИИ, я слышал многочисленные сообщения из первых рук о том, что масштабная перестройка системы отслеживания пользовательских показателей маловероятна в ближайшее время.

То, что высокорентабельно для этих компаний, будет работать до поры до времени, по крайней мере, до тех пор, пока не будет принято какое-либо регулирование. В конце концов, я подозреваю, что крупные социальные сети захотят перейти на модель, которая соответствует поведению их платформы целям пользователей.

Большинству людей, которые осознают тот факт, что они или их близкие зависимы от своих телефонов, это не нравится, поэтому необходимо внести изменения в оптимизацию. Больше никаких кликов, колебаний, подсчета и т. д.! Тем не менее, вероятный результат заключается в том, что компании переходят от текущего подхода к другой функции вознаграждения, оптимизируя долгосрочный план, но оптимизация может быть неуместной, если функция вознаграждения для приложений социальных сетей предназначена для стимулирования определенных типов образа жизни.

Анализ прошлых краткосрочных показателей делает эти алгоритмы балансом между поведением на экране (счет секунд, минут, часов) и структурой образа жизни (дни, недели, годы). В области многокритериальной оптимизации так ясно сказано, почему это сложно сделать [из Википедии]:

Для нетривиальной многокритериальной задачи оптимизации не существует единого решения, которое одновременно оптимизирует каждую цель. В этом случае говорят, что целевые функции конфликтуют, и существует (возможно, бесконечное) количество оптимальных по Парето решений. Решение называется недоминируемым, оптимальным по Парето, эффективным по Парето или не уступающим, если ни одна из целевых функций не может быть улучшена по значению без ухудшения некоторых других целевых значений. Без дополнительной субъективной информации о предпочтениях все решения, оптимальные по Парето, считаются одинаково хорошими… единственное решение, удовлетворяющее субъективным предпочтениям человека, принимающего решения (ЛПР).

Существует бесконечное количество решений. Оптимальность по Парето не кажется чем-то, что люди действительно могут преследовать. Я не хочу, чтобы мои приложения делали выбор между решениями Парето.

Любой пользователь должен иметь возможность заявить, каковы его цели, и заставить алгоритмы настроить свое поведение в соответствии с этим. При любом размышлении тот факт, что компании регулярно меняют проблему оптимизации за кулисами нашей жизни, не сообщая нам об этом, является патерналистским и нежелательным.

Учитывая рентабельность, выбор пользователя, скорее всего, будет ограничен. В масштабе этих систем любой пользователь может выглядеть больше похожим на шум, чем на истинный сигнал, для которого оптимизируются компании. Именно взаимодействие между множеством пользователей и перечисленными приложениями, которые они часто используют, во многом определяет траекторию развития этих систем.

Общества и системы как многокритериальная оптимизация

Любая попытка определить функцию вознаграждения в обществе посягнет на то, что мы считаем неотъемлемыми правами. Человеческие общества как новое эмерджентное поведение эволюции плохо изучены в плане их стабильности. Вскоре мы будем применять больше тестовых случаев для нашего самого важного развитого навыка.

Сравнение мотивации, как обсуждалось выше, приведет к определению приоритетов определенных пользователей на основе имеющихся весов. Рассмотрим предчувствие сценария, когда определенные приложения могут точно предсказать уровень дофамина и использовать его для адаптации действий человека и его ближайших друзей. Будет ли человек с более высоким пиковым уровнем дофамина иметь приоритет перед человеком с более низким исходным уровнем? Опровержение этого аргумента может открыть множество других недостатков, например, социальные сети никогда не знают вашего прошлого и не знают чьего-то пикового счастья, которое заблокировано какой-либо формой травмы.

Для системы, подобной гипотезе вознаграждения, может иметь смысл запускать большие системы, если все отдельные агенты согласны с целью, но это не так. В случае масштабных рекомендаций (например, YouTube, Facebook и т. д.) существует множество способов взглянуть на проблему с инженерной точки зрения. Каждая из этих системных схем разумна на высоком уровне, но будет иметь существенно разные последующие эффекты:

  • Разверните одну глобальную политику (кумулятивный рекомендатель — это агент с огромным пространством действий, которое растет вместе с количеством пользователей), человек — это среда.
  • Измените механизм вознаграждения таким образом, чтобы люди, действующие в среде, включали рекомендации (возможно, что-то вроде обратного RL).
  • Придерживайтесь оптимизации «один к одному», когда пользователь запрашивает набор весов и его опыт закрыт для цифрового выбора других пользователей (взаимодействия все еще существуют в реальном мире, за пределами предполагаемой абстракции этого подхода).

Меня беспокоит множество взглядов и несколько убедительных ответов, которые сосредоточены на человеческом мировоззрении, особенно с индивидуальной точки зрения. Более интегрированные и продвинутые системы, управляемые данными, двигают нас в этом направлении, и неясно, когда мы достигнем точки перелома для какой-то важной социальной структуры, изменив наши предпочтения и цели.

В таких ситуациях, когда вознаграждения недостаточно, может не быть инструмента, который мог бы решить их оптимальным образом. Есть некоторые проблемы, которые лучше не оптимизировать.

Первоначально это появилось в моем бесплатном подразделе Демократизация автоматизации. Пожалуйста, ознакомьтесь с ним или подпишитесь на меня в Твиттере!