Команда GoodAI
26–30 июля 2021 г.

Первоначально опубликовано на https://www.goodai.com 17 августа 2021 г.

Недавно мы провели семинар Badger под названием «Помимо непрерывного обучения через модульное метаобучение», участники которого присоединились к нам онлайн и в нашей штаб-квартире в Праге. Цель пятидневного семинара заключалась в том, чтобы собрать вместе исследовательскую команду GoodAI, получателей грантов GoodAI и других экспертов в этой области, чтобы продвинуть исследования в области обучения на протяжении всей жизни, метаобучения, многоагентного обучения и других направления, которые мы считаем актуальными для создания в целом интеллектуальных агентов.

Наши регулярные семинары Badger заимствовали свое название от архитектуры GoodAI Badger. Желаемым результатом нашего исследования является создание системы обучения на протяжении всей жизни, способной постепенно накапливать знания и эффективно повторно использовать эти знания для обучения новым навыкам. Такая система должна быть способна постоянно адаптироваться и учиться решать постоянно растущий, неограниченный круг новых и неизвестных задач и работать в средах с возрастающей сложностью.

На этом семинаре мы обсудили возможные пути к разработке такой системы посредством тщательного мета-обучения распределенной модульной системы обучения в сочетании с соответствующей минимально жизнеспособной средой/набором данных, культивируя необходимые индуктивные предубеждения, чтобы обеспечить открытие учащегося на протяжении всей жизни с такими свойствами.

Мы провели пять дней, каждый посвященный теме, обсуждая в небольших группах. Ниже вы можете найти некоторые из ключевых выводов и сопоставленных заметок за каждый день.

Участники

Мигель Агилера, Ферран Алет, Паскуали Антуан, Кай Арулкумаран, Пол Бертенс, Мартин Биль, Блейк Кэмп, Мишель Камполо, Венделин Бёмер, Кристофер Бакли, Мэтт Кросби, Аарон Дхарна, Сэм Эрл, Роландо Эстрада, Кевин Франц, Роберто Галлотта, Дэвид Херел , Миклош Кепеш, Махди Хосрави, Самуэль Кигеланд, Томас Миколов, Дипак Патхак, Уилл Редман, Марк Сэндлер, Лиза Сорос, Джулиан Тогелиус, Натаниэль Вирго, Макс Владимиров, Олаф Витковски, Паучинг Яп, Доминика Зогатова.

Команда GoodAI :Ольга Афанасьева, Саймон Андерссон, Давид Кастильо Боладо, Джозеф Дэвидсон, Ян Фейерайсл, Николас Гуттенберг, Петр Глубучек, Мартин Поляк, Изабо Премон-Шварц, Марек Роса, Петр Симанек, Ярослав Витку.

Резюме обсуждения

День 1: Учимся учиться; Обучение на протяжении всей жизни (непрерывное обучение и постепенное обучение)

Введение

Непрерывное обучение уже несколько десятилетий остается нерешенной проблемой ИИ. В последнее время было опубликовано множество работ по непрерывному обучению для моделей глубокого обучения. Большинство исследований сосредоточено на том, чтобы не забывать, но непрерывное обучение — это более широкая тема, овладение которой может открыть доступ к обучению машин на уровне человека. В прошлом люди неоднократно указывали на способность постоянно приобретать новые знания и улучшать эту способность на лету как на ключ к достижению ОИИ, Дорожная карта к машинному интеллекту, Общая задача ИИ — раунд первый: постепенное обучение, BADGER: Learning to (Learn [Learning Algorithms] through Multi-Agent Communication) и Создание машин, которые учатся и думают как люди, и это лишь некоторые из них).

Мы считаем, что нынешняя тенденция к созданию все более крупных моделей, основанных на огромных наборах данных, хотя и является плодотворной, в конечном итоге приводит к системам, которые являются универсальными и адаптивными на уровне, на котором будет тестироваться ОИИ. Мы пригласили участников к совместному обсуждению непрерывного обучения и призвали их поделиться своими мыслями, опасениями, мотивами, проблемами и вопросами, которые, по их мнению, важны для темы и могут способствовать ее дальнейшему продвижению.

Самые популярные вопросы:

  • Команда A: Как сделать так, чтобы системы могли комбинировать навыки для решения новых задач на лету?
  • Команда B: Как добиться непрерывного обучения, не ограничивая задачи?
  • Команда C: Как метаобучить буфер воспроизведения, который помогает обобщению/надежности?
  • Команда D: Можно ли использовать MCTS в качестве основы для разработки задач?
  • Команда F: Как создать среду, достаточно сложную, чтобы обучение на протяжении всей жизни стоило того?
  • Команда J: Можем ли мы найти механизм, позволяющий агенту планировать свои действия, при этом максимизируя его обучение?

Резюме результатов

Команда А

Вопрос: люди способны к адаптации на лету — мы быстро учимся многим простым задачам, комбинируя предыдущие навыки, гораздо больше, чем специализируемся в определенной области. Как сделать систему, способную рекомбинировать навыки для решения новых задач на лету?

Многие современные методы искусственного интеллекта пытаются достичь производительности SOTA в ограниченной и четко определенной задаче, напоминая спортсменов-олимпийцев, которые более 20 лет сосредотачиваются на конкретных задачах. Но это не похоже на обычный человеческий опыт. Каждый день мы узнаем что-то новое, какие-то маленькие детали, не обязательно связанные с нашим опытом, и нам нужно адаптироваться к ранее невиданным вариациям повседневных задач.

Гипотеза. Модульная система с предварительно обученными абстракциями обеспечивает более быструю сходимость к приемлемому уровню производительности по сравнению с монолитной системой.

Такая система, учитывая новую задачу, должна просто найти новую последовательность/вероятность перехода (например, в марковском процессе) модулей, которые работают для конкретной задачи — таким образом, для изучения новых задач требуется всего несколько дополнительных битов и даже пространство поиска. маленький. Таким образом, хранение вновь изученного решения становится дешевым, а его поиск также упрощается. В соответствии с постановкой вопроса должен быть установлен минимальный уровень компетентности, как «минимальный критерий». Последовательности могут демонстрировать определенную изменчивость или зависимость от контекста.

Приведенная выше идея подразумевает необходимость решения комбинаторной сложности, связанной с количеством возможных комбинаций модулей. Одним из возможных решений является введение иерархии абстракций, которые позволяют упростить размышления о решении проблемы, разбить ее на более мелкие части за счет снижения теоретически достижимой производительности решения. Чтобы привести примеры того, где необходимы абстракции — неподготовленный человек оказался бы в ситуации без требуемых абстракций, если бы вы поместили их на место пилота в кабине самолета или ребенка за рулем автомобиля.

Что касается задач или экспериментов, которые должны подтвердить вышеприведенную гипотезу, по общему мнению, роботизированные задачи с общими функциями задач, такими как, например, MetaWorld может хорошо работать для извлечения модульности.

Нерешенные проблемы: как обучать абстракции? Нахождение необходимых связей между модулями и построение абстракции может быть достигнуто путем обучения модульной архитектуры нескольким различным экземплярам одной и той же задачи и объединения (или, возможно, пересечения) изученных топологий между модулями.

Команда Б

Вопрос. Как осуществлять непрерывное обучение, когда нет четкого разделения задач, а вместо этого есть только постоянно меняющийся контекст, который не дает немедленной информации о задаче?

В большинстве случаев непрерывного обучения агенту предоставляется некоторая информация о базовых задачах, но в естественном мире такая информация не всегда или даже не доступна вовсе. Когда нам не хватает информации о том, какие задачи мы должны решать, начинают возникать многие проблемы, такие как трудности с присвоением той или иной формы дискретных меток политикам или структурам, которые изучаются.

Резюме обсуждения:

  • Что такое задача? Как мы определяем его, а затем рассуждаем о нем как с дискретным, так и с непрерывным спектром? Существуют различные способы идентификации задачи, от меток, вознаграждений до имитации и т. д., каждый из которых имеет свой тип информации, информирующей о задаче. Есть настройки, в которых есть континуум задач, например Хоккей или Навигация. Существуют также спектры обучения, которые варьируются от неконтролируемого, основанного на вознаграждении, полуконтролируемого, вплоть до обучения с учителем, и это также может служить в качестве информации о задаче. Проблема в том, что когда задача непрерывная, нет смысла связывать знание с задачей — представьте себе цель достижения GPS-координат.
  • Представление задач можно разделить на внутреннее и внешнее:

внутреннее — постоянное обучение здесь очень сложно,

external — не совсем реалистичная установка для непрерывного обучения.

  • Развитие жизни можно рассматривать как интересный пример эволюции информации о задаче, которая предоставляется агенту, когда, когда мы рождаемся, обучение происходит без присмотра и проходит ограниченная информация о задаче. По мере нашего роста мы узнаем все больше и больше индуктивных предубеждений, а количество и сложность информации о задачах увеличивается.
  • Каков самый простой сценарий, который можно придумать, который представляет эту установку?
  • Система, которую мы разрабатываем, должна быть построена с «универсальной возможностью поиска», которая не прерывается при обучении в будущем. Универсальная возможность поиска может быть неэффективной, но фиксированной и всегда присутствует в системе на случай, если обученный алгоритм обучения не сработает. Простой пример: система состоит из двух частей. «А» — фиксированный универсальный поиск. «В» — часть, относящаяся к задаче. A обучает B любой новой задаче. Система учится решать задачу T1, только B переписывается, A остается с исходными возможностями. Затем система изучает задачу T2, так что B снова переписывается, но A остается готовым к изучению любой новой задачи. Можно сказать, что эта система способна адаптироваться к любой новой задаче, не беспокоясь о чрезмерной специализации.

Гипотеза. Гипотезы предложено не было.

Команда С

Вопрос.Как метаобучить буфер воспроизведения, который помогает обобщению/надежности?

В основе большинства дискуссий лежит следующее допущение: «Мы должны сосредоточиться на хорошем представлении, подходящем для изучения новых знаний (идентификация новых понятий вместо того, чтобы полагаться на ручные задачи), консолидации знаний (изменение признаков) и комбинаторного обобщения (концепции). повторное использование). Достаточно ли этих механизмов для достижения лучших свойств обобщения?»

В качестве механизмов метаобучения буфера воспроизведения были предложены следующие идеи:

  • оптимизация потери памяти в сети глубоких искусственных нейронов (DAN)
  • использовать шумный прошлый опыт, чтобы улучшить обобщение
  • добавлять больше скрытых переменных на лету, чтобы поддерживать непрерывное обучение

В качестве вдохновляющих на решение проблемы были отмечены следующие работы: https://arxiv.org/pdf/1910.14481.pdf (хотя в них используется повтор), https://www.cmu.edu/news/stories/archives /2021/july/legged-robots-adapt.html (быстрая адаптация без повтора), https://arxiv.org/abs/2107.04034 (быстрая моторная адаптация, быстрая адаптация без повтора)

Очевидным недостатком метаобучения такой методики, как буфер воспроизведения, являются требования к вычислениям и/или количеству задач — в этом контексте вспоминалась оптимизация на тысяче задач Люка Меца. С другой стороны, репрезентативное обучение, возможно, лучше обучать без учителя или с самоконтролем, чтобы улучшить силу сигнала обратной связи.

Гипотеза. Гипотезы предложено не было.

Команда Д

Предположение. Интересные задачи должны вести к другим интересным задачам.

Вопрос. Можно ли использовать MCTS в качестве основы для разработки задач? (Он имитирует то, что произойдет, если задание будет дано учащемуся)

Следующая схема была предложена в качестве основы изобретения задач, которая предлагает задачи, наиболее подходящие для быстрого (обучающего) приобретения агентом навыков. Однако схема является дорогостоящей в эксплуатации.

  • A: Агент, который уже обучен некоторым задачам.
  • D: Распределение якорных задач
  • 1. Предложите новую задачу T
  • 2. Посмотрите, сколько задач в D агент А может улучшить за несколько шагов градиентного спуска.
  • 3. Тренируйтесь на Т
  • 4. Посмотрите, сколько задач в D теперь может улучшить агент за несколько шагов градиентного спуска.
  • 5. Разница в том, насколько T подходит для обучения этого агента A.

Эту схему можно рассматривать как «расширение возможностей» агента. Учитель выбирает задачу, которая позволяет обучить агента выполнять как можно больше задач в будущем.

Также был предложен алгоритм «скрытых способностей» для определения того, что агенты могут знать, как делать и что необходимо для успешного выполнения задач.

Гипотеза. Гипотезы предложено не было.

Команда F

Вопрос. Как мы можем создать среду, достаточно сложную, чтобы сделать обучение на протяжении всей жизни стоящим? Если сами среды развиваются (или включают многоагентные задачи в зависимости от поведения других агентов), как мы должны измерять производительность агента?

Гипотеза. Можно представить себе три парадигмы обучения агентов:

  1. Агент учится на фиксированных контролируемых задачах и выживает в открытом мире.
  2. Агент учится на контролируемых задачах и выживает в открытом мире с вознаграждением, основанным на любопытстве, и
  3. Агент обучается на контролируемых задачах, в открытом мире с любопытством и на наборе задач, процедурно сгенерированных другим обучающимся агентом.

Тогда можно ожидать, что агенты B и C продемонстрируют более высокую производительность при выполнении заданного вручную набора задач. Можно также ожидать, что агент генерации задач в C будет генерировать задачи, которые являются сложными и разнообразными по отношению к исходному набору контролируемых задач.

Эксперимент: в этом обсуждении была предложена гипотеза и связанный с ней эксперимент, которые должны показать, что агент, обученный с помощью алгоритма обучения на основе любопытства, лучше подходит для будущих задач, чем агент, который максимизирует явная цель. В этом эксперименте важно отметить, что среда генерируется процедурно, открыта и с дополнительными ограничениями и давлением, с доступным деревом крафта. Было определено важное свойство открытой среды — позволять создавать инструменты, которые, в свою очередь, можно использовать для изменения и создания новых вещей в среде.

Команда J

Вопрос. Можем ли мы найти механизм, позволяющий агенту планировать свои действия таким образом, чтобы максимизировать его обучение?

Когда мы, люди, решаем чему-то научиться (активное обучение), например. катаясь на велосипеде, мы уже знаем несколько вещей, которые обуславливают процесс обучения, например, выполнимость задачи, некоторые ожидания относительно наших навыков и способностей, а также какие навыки и способности могут иметь отношение к новой задаче. И мы планируем наши действия, чтобы дать возможность изучить новый навык. Существуют различные методы и подходы, которые можно использовать для моделирования аналогичных процессов и шагов планирования в наших искусственных агентах, включая MCTS, многоагентную конкуренцию, сотрудничество, самостоятельную игру и обучение с метаподкреплением.

Гипотеза: существует метод, который может максимизировать скорость обучения агента, планируя его действия и начальные состояния, чтобы он приобретал навыки, способствующие его обучению в будущем.

Вывод. Изучение навыка — это то, что можно спланировать, обладая определенными знаниями и самоанализом. Выбор правильных начальных состояний и действий для быстрого обучения политики — это задача, которую может выполнять политика 2-го уровня (мета-обучение).

Окончание слова

Непрерывное обучение — это сложная тема, которая имеет много открытых вопросов и усложняется ограниченной ясностью определений сценариев и условий, которые действительно отражают то, как этот тип обучения происходит в естественном мире. Чтобы продвигаться вперед, нам нужно четко понимать наши определения, сценарии и задачи и то, как они связаны с практическими ситуациями, помимо методов, которые мы создаем для решения таких проблем, как катастрофическое забывание, а также прямой и обратный перенос. В практическом смысле, когда рассматриваются возможные пути к общему интеллекту, наиболее полезным аспектом непрерывного обучения, по-видимому, является способность улучшать собственный процесс обучения за счет знаний, приобретаемых в ходе самого процесса обучения.

День 2: Преимущества модульности; Коллективное и социальное обучение

Введение

Почти все природные системы демонстрируют обучение на нескольких уровнях. В отличие от большинства современных систем искусственного интеллекта, где существует глобальная цель, естественные системы часто включают взаимодействие между несколькими агентами или модулями, такими как общесистемная цель, но при этом способны к коллективному глобальному поведению. Примеры таких систем в природе варьируются от самоорганизации на клеточном уровне до коллективов биоорганизмов или даже человеческих сообществ. Во всех этих системах обучение происходит посредством локальных взаимодействий. Однако большинство существующих систем искусственного интеллекта по-прежнему сосредоточены на оптимизации фиксированной функции потерь, созданной вручную, а не на использовании возможностей коллективного обучения, несмотря на то, что они часто берут свое начало в биологическом вдохновении.

Понимание фундаментальных различий между коллективными и монолитными системами, их недостатков и преимуществ, а также того, когда одна система должна быть предпочтительнее другой, имеет основополагающее значение для понимания того, могут ли системы коллективного обучения раскрыть потенциал, который отсутствует в существующих монолитных системах.

Самые популярные вопросы:

  • Команда A: Как разбить сложную задачу на более мелкие задачи, которые можно решить проще, чем одну большую задачу. Есть ли отличный способ сделать это?
  • Команда B: Существует ли тип обучения, который может возникнуть на уровне общества и невозможен в монолитной системе?
  • Команда C: Как меняется эффективность набора модулей или экспертов по мере изменения неоднородности и степени детализации этих модулей?
  • Команда D: Как эффективно искать маршрутизацию модулей, избегая комбинаторного взрыва. Предполагалось, что при обучении маршрутизация меняется намного быстрее, чем сами модули, которые могут быть статичными или медленно меняющимися?
  • Команда F: Существует ли общий метод интеграции модулей, когда они находятся в спектре между дискретными и символьными вычислениями?
  • Команда J: Каков минимальный набор индуктивных предубеждений, необходимый для получения социального обучения, и в чем разница между социальным обучением на уровне агента и на уровне глубокой сети?

Резюме результатов

Команда A: Разбивка задачи на подмодули

Вопрос: как разбить сложную задачу на более мелкие задачи, которые можно решить проще, чем одну большую задачу. Есть ли дифференцируемый способ сделать это?

Были обсуждены следующие подходы:

  • Учебная программа. Если мы сформулируем нашу проблему как учебную программу, мы сможем создавать модули, двигаясь по учебной программе. Дополнительные различия между задачами связаны либо с дополнительными улучшениями модулей, либо с необходимостью создания нового модуля.
  • Модули повторно используются в нескольких задачах. Если мы работаем с распределением задач, мы можем определить модули как эффективный способ изучения и улучшения этих задач. Модули повторно используются в нескольких задачах; мы ожидаем, что будет существовать корреляция между четко определенным модулем и улучшениями этого модуля, приносящими пользу всем или подавляющему большинству задач, в которых он появляется.

Был предложен эксперимент — чтобы смягчить застревание модулей в плохом равновесии Нэша, их можно заставить иметь возможность взаимодействовать с разными модулями. Модули, которые не смогут адаптироваться, будут переобучены или со временем удалены из архива повторно используемых модулей.

Команда B: Новое обучение на социальном уровне

Вопрос. Существует ли тип обучения, который может возникнуть на уровне общества и невозможен в монолитной системе?

Ключевые моменты социального обучения:

  • Внешнее хранилище информации — это ключ к лучшему коллективному обучению? Хранилище может быть кумулятивным и может быть больше, чем память отдельного агента.
  • Множественные механизмы обратной связи. Социальная система может иметь множество адаптивных механизмов обратной связи, которые будут масштабироваться лучше, чем централизованная обратная связь монолитных систем.
  • Порог эффективности. Существует ли порог, при котором социальные системы становятся более эффективными, чем монолитные?

Выявленные преимущества социальных систем:

  • Лучшее масштабирование — модульные/иерархические системы с преимущественно локальными коммуникациями масштабируются лучше, чем монолитные системы.
  • Воспроизведение навыков — обнаруженный навык может быть воспроизведен в другой части общества, тогда как в монолитной системе его необходимо открывать заново.
  • Обучение без ограничений — из-за отсутствия единого фиксированного механизма обратной связи и расхождения в обучении социальные системы больше подходят для обучения без ограничений.

Команда C: Неоднородность и гранулярность экспертов и моделей поведения

Вопрос. Как меняется эффективность набора модулей или экспертов по мере изменения неоднородности и степени детализации этих модулей?

Были выявлены два типа неоднородности и гранулярности:

  • Неоднородность политик модулей (веса, количество параметров и т. д.) / Неоднородность внутреннего поведения модулей,
  • Гранулярность по размерам модулей (меньше -> большее количество параметров) / Гранулярность по количеству уникальных политик, которые могут быть приняты экспертами (обратите внимание, что это похоже на определение неоднородности выше).

Был предложен ряд экспериментов:

  • В однородной модульной схеме надежность связи является проблемой. В большинстве методов SOTA используется ручное увеличение данных для получения разнообразия в поведении и, следовательно, разнообразия в градиентах. Можем ли мы вместо этого нарушить внутреннюю активацию модулей? Мы могли бы установить дисперсию возмущений и исследовать ландшафт поведения на основе этой различной дивергенции поведения.
  • Варьирование степени количества полисов, которые могут приобрести эксперты, также является экспериментом. Мы ожидаем увидеть, что этот вариант потребует больше шума в сообщении, так как есть больше общих параметров и больше риск переобучения.

Команда D: Маршрутизация модулей

Вопрос: как эффективно искать маршрутизацию модулей, избегая комбинаторного взрыва. Предположение было, что при обучении маршрутизация меняется гораздо быстрее, чем сами модули, которые могут быть статичными или медленно меняющимися?

Для борьбы со сложностью поиска были определены четыре подхода:

  1. Амортизированный вывод медленного комбинаторного поиска. Функция нейронного предложения информирует поиск и учится на нем а-ля AlphaZero.

2. Иерархия. У нас есть библиотека модулей, которые можно соединить вместе и использовать в агенте. Когда некоторые модули соединяются вместе одинаковым образом в нескольких агентах, они инкапсулируются как один составной модуль (включая внутреннюю проводку) и добавляются в библиотеку.

3. Информированный поиск — добавьте к каждому модулю метку, описывающую его функцию. Затем задача может быть решена путем декомпозиции ее на подзадачи до тех пор, пока каждая подзадача не будет реализована модулем.

4. Сокращение — начните с полностью подключенных модулей и применяйте разреженность во время обучения, пока не будет найдено разреженное соединение.

Команда F: Интеграция модулей

Вопрос. Существует ли общий метод объединения модулей, когда они находятся в спектре между дискретными и символьными вычислениями? Очень большие наборы данных можно обучать с помощью больших монолитных систем, но для небольших наборов, таких как Chollets ARC, для эффективного обучения могут потребоваться что-то вроде модулей.

Но мы также можем захотеть разнообразия в субстрате этих модулей, например, ARC может лучше обслуживаться набором дискретных правил, тогда как MNIST может быть более символическим. Следовательно, возникает вопрос, как мы можем объединить эти модули вместе?

Эксперимент заключается в процедурной генерации инопланетных языков программирования и использовании метаобучения для поиска модулей, которые могут предсказывать программы на этих языках. Архитектуры модулей будут самыми разнообразными: от нейронных сетей до целочисленного программирования и клеточных автоматов. Успешная архитектура из этого подтвердит вывод о том, что разнообразие модулей и методов обучения способно обрабатывать сложные задачи символьной логики.

Команда J: Минимальные предубеждения, необходимые для социального обучения

Вопрос. Каков минимальный набор индуктивных предубеждений, необходимых для получения социального обучения, и в чем разница между социальным обучением на уровне агента и глубокой сети?

У экспертов по барсукам может быть одинаковая политика, но в любом случае им нужно где-то разнообразие, будь то политика или исходные данные. Однако было установлено, что слишком много общения может быть вредным для обучения.

Эксперименты здесь включают добавление шума к сигналам в пределах определенного «бюджета шума», чтобы модуль мог выбирать, сколько информации он хочет передать, и иметь пулы агентов с различными параметрами, которые должны конкурировать за отправку и получение информации.

Окончание слова

Занятия второго дня были посвящены модульности и социальному обучению. Темы, которые были выбраны, касались того, как можно изучать и соединять модули. Это указывает на то, что все еще существует большая неопределенность в отношении потенциальных механизмов, которые можно использовать для привлечения модульных экспертов. Был предложен ряд экспериментов относительно того, как можно выполнять поиск в пространстве модулей.

С социальной стороны обсуждались неявные предубеждения и эмерджентность. Эксперименты, которые проверяют эмерджентность, вероятно, будут иметь несколько механизмов обратной связи и некоторую внешнюю память. Минимальные предубеждения, которые были выявлены для социального обучения, заключаются в разнообразии, без разнообразия где-то в системе не будет никакого надежного обобщения.

Эти темы полезны для архитектур, подобных Badger, поскольку каноническая система badger является одним из однородных модулей, которые взаимодействуют друг с другом. Исследования того, как эта коммуникация может выполняться в качестве задачи маршрутизации, и как можно использовать шум для поощрения разнообразия в поведении, будут иметь важное значение для дальнейшего понимания последствий Badger.

День 3: Открытое исследование и собственные цели

Введение

День 3 был посвящен теме открытости и создания целей. Многое из того, чего достигли люди, связано не с удовлетворением базовых побуждений или давлений, а выходит далеко за пределы всего, чему могла бы подвергнуться человеческая эволюция. В этом ключе нам нужны не просто искусственные системы, которые делают определенные вещи, которые мы им приказываем, а скорее нам нужны системы, которые сами обнаруживают широкий спектр интересных вещей, включая вещи, о которых мы не думали или о которых мы не думали. мог себе представить во время построения системы.

С этой целью концепция открытости приводит нас к желанию самых разных вещей — ИИ, который не насыщает и не заканчивает обучение, а учится вечно; ИИ, который может постоянно удивлять нас новинками; ИИ, который сосредотачивает свои собственные интересы и способности и преследует их даже так, как мы не могли предвидеть, когда мы впервые обучали или создавали его. С этой целью вопрос о том, как агенты могут последовательно определять свои собственные цели, является центральным для открытости, поскольку они должны быть в состоянии выйти за пределы любого конечного конкретного набора указаний, которые мы изначально даем.

Группы предложили множество вопросов и способов осмысления этих проблем, которые можно условно разделить на три темы:

  • Что такое открытость? Что мы хотим от этого? Как узнать, есть ли оно у нас и возможно ли оно вообще? И как сделать так, чтобы оно было полезным, не разрушая его?
  • Способность агента самоанализировать и моделировать свой собственный процесс обучения дает ему естественный и открытый источник направления, которым он может следовать в пространстве целей, и как это может работать?
  • Какие аспекты дизайна среды и взаимодействия способствуют открытости, и как мы можем создать среду, в которой даже возможно то, что обнаруживает агент, чтобы удивить нас, когда у нас есть такое сильное пристрастие к мышлению с точки зрения задач и предвосхищению решений? Можно ли автоматизировать дизайн среды, чтобы создать возможности для таких вещей, как использование инструментов, или мы можем даже возложить ответственность за окружающую среду на общество других агентов, контролирующих друг друга?

Самые популярные вопросы:

  • Команда A: Как проверить, есть ли у системы неограниченный потенциал?
  • Команда Б: Насколько полезно знать то, что вы знаете?
  • Команда C: Как мы можем создать открытые системы, в которых агенты могут удивить нас?
  • Команда D: Как ввести цели в открытое обучение?
  • Команда F: Что делает желание (цель, мотивацию и т. д.) хорошим с точки зрения агента?
  • Команда J: Почему придуманные вами цели до сих пор не решены?

Как мы можем узнать Открытость, когда видим ее?

Команда А спросила, можно ли протестировать систему на ее открытый потенциал без полного ее моделирования — можно ли доказать, что некоторые системы не могут быть открытыми, а другие могут иметь многообещающие ингредиенты. Они определили ряд свойств, которые полностью исключают открытость: конвергенция к статическому состоянию, отсутствие взаимодействий между элементами, неспособность явлений в системе масштабироваться с размером системы и преобладание случайного поведения над динамической структурой. Точно так же они считали, что некоторые вещи могут быть индикаторами открытости: многомасштабные паттерны, присутствие репликаторов и растущее разнообразие. Команда А предлагает исследовать эвристики, предназначенные для определения того, может ли система быть открытой, путем масштабирования системы и наблюдения за тем, как различные эвристики ведут себя при масштабировании.

Команда D также столкнулась с вопросом о различных видах открытости, но с точки зрения желания управлять системой с помощью целей. С этой целью они рассмотрели форму открытости, когда цель является фиксированным ограничением, но методы решения этой цели будут разнообразными и сложными.

Обе команды рассматривали возможность использования ЦС в качестве испытательного стенда для этих идей, при этом Группа А предложила протестировать известные ЦС 1d Wolfram, которые были признаны относящимися к типу 3, чтобы увидеть, появляются ли шаблоны при масштабировании системы, чтобы увидеть, могут ли интуитивно понятные классификации человека открытости заслуживают доверия, когда дело идет к масштабу. Команда D также рассматривала CA, но в контексте поиска множества решений в пространстве правил, удовлетворяющих некоторым ограничениям (например, создание определенного шаблона хотя бы один раз во время выполнения), а затем наблюдения за тем, как часть пространства правил которые оставались жизнеспособными, могли измениться в ходе разведки.

Команда С немного по-другому относилась к открытости, сосредоточив внимание на вопросе неожиданности: что позволит системе постоянно нас удивлять? Они пришли к выводу, что, пока мы думаем с точки зрения конкретных задач и условий, вполне вероятно, что даже открытый агент не сможет нас удивить, потому что у нас будет тенденция выпекать собственные решения и упрощать то, что нам не нужно. мы не думали, что были уместны. Но если бы существовало пространство сред, они предположили, что можно было бы искать вещи, которые позволили бы агентам увеличить свои возможности, внося изменения в среду, и что это было бы индикатором ситуаций, которые могли бы поддерживать эмерджентные структуры, такие как инструменты. использование. Команда C твердо придерживалась того направления, что способность создавать инструменты для устранения различных узких мест в задачах может рассматриваться как очень хороший показатель того, что среда поддерживает открытость.

Зная, что мы могли бы знать, но не

Другой повторяющейся темой была идея о том, что цели могут возникать в результате самоанализа агентами своего собственного процесса обучения. В команде Б это было сформулировано как вопрос «Чему следует научиться?» с идеей наблюдения за агентами, наделенными полномочиями выбирать, какие задачи выполнять, и как их поведение будет меняться при различных уровнях предоставленной метаинформации. Работают ли агенты лучше, когда в качестве входных данных предоставляются метаданные задачи? Как насчет того, чтобы они были явно проинформированы об их собственной эффективности в прошлых задачах или их улучшении в прошлых задачах? Идея заключалась в том, что агенты могли бы научиться использовать это явное метазнание, чтобы не только лучше выбирать задачи, которые они, вероятно, смогут научиться решать, но и найти для себя естественную учебную программу.

Команда F пришла к аналогичному выводу, но в другом направлении, ища альтернативные способы формулирования «действия» по выбору цели, которые позволили бы избежать своего рода лени, от которой страдают системы самоопределения целей. Основная проблема заключается в том, что если вы сами выбираете цель, почему бы просто не выбрать то, что дает наибольшую награду за то, что вы уже делаете? Они предложили систему, использующую три модуля: сеть политик, обусловленных целями, которая пытается выполнить цели, модуль, который предсказывает, может ли данная цель быть успешно достигнута с учетом текущего состояния обучения агента, и модуль, который предсказывает, будет ли эта цель достигнута. могут быть достигнуты после дополнительной подготовки. Агент будет мотивирован выбирать цели, которые максимизируют контраст между тем, насколько хорошо он может работать с учетом обучения, и тем, насколько хорошо, по его мнению, он может работать в настоящее время. Другими словами, агенту наскучат вещи, которые он знает и умеет делать, но он также не будет интересоваться вещами, которые он считает невозможными.

Команда J отметила, что существует множество схем для самостоятельно предложенных целей, таких как инструментальные подцели, возникающие в результате максимизации полномочий, или такие вещи, как Power Play или Learning Progress Шмидхубера (который сам по себе похож на предложенный командой F метод). Однако эти вещи часто трудно обобщить или оценить для длинных горизонтов или открытых систем, где среда может резко измениться в ходе выполнения. Они предложили подход типа модели мира к изучению высокоуровневого представления различных целевых состояний в сочетании с сетью, которая будет предсказывать, сможет ли агент достичь этого состояния — вознаграждение, побуждающее агента, будет обратным вероятности, предсказанной этим состоянием. сети, заставляя агента пытаться достичь состояния, которое, по его мнению, было априори маловероятным.

Здесь есть общая черта: в некотором смысле поворот процесса обучения к своим собственным целям может лежать в основе открытости ИИ в различных потенциальных формах.

Окружение — это другие люди

Еще одной общей нитью среди групп была идея полагаться на окружающую среду, чтобы дать толчок к выбору целей в стремлении к открытости. В некоторых случаях это было оправдано по необходимости из-за того, что дизайнеру среды было трудно избежать запекания в конкретных ограниченных решениях (команда C), тогда как в других случаях считалось, что среды, состоящие из других агентов, с агентами, определяющими цели друг для друга. , могли бы предотвратить крах к мелочи и предоставить новые драйверы (Команда F).

Взгляд команды C на среды заключался в том, чтобы спросить, что потребуется для создания сред, поддерживающих использование инструментов, без запекания определений этих инструментов вручную. Они рассмотрели возможность разработки метрики «композиционной сложности», которая измеряла бы, насколько хорошо пространство возможностей внутри среды может быть расширено за счет объединения подэлементов этой среды, создавая своего рода мотивацию расширения прав и возможностей, которая будет использоваться не для агентов, а изобретать среду, в которой эти агенты будут обучаться.

В Команде F существовала идея, что, возможно, вещи, выходящие за рамки одного агента, принципиально необходимы для определения открытости, и что никакая самостоятельная цель не поможет. Вместо этого «распределительные» цели: сравнение себя с другими агентами, попытка максимизировать разнообразие на уровне общества или выделиться и привлечь внимание других агентов. Такого рода подходы основывались на идее о том, что другие агенты в социальном контексте действуют в некотором смысле как среда друг для друга, а силы в масштабе общества, такие как естественная индукция Ватсона, управляют неограниченным выбором разнообразных целей. Для группы это казалось в некотором смысле более верным опыту художника, чем что-то вроде альтернативной идеи поиска возможностей для обучения, и идея «игры в социальных сетях нравится» была предложена как возможная реализация этой точки зрения.

Ключевая мысль в отношении появления целей более высокого уровня заключалась в том, может ли вообще быть необходимо, чтобы агенты сталкивались с целями, которые по своей сути были больше, чем они сами, — не только то, что агент хотел достичь определенного состояния, но и то, что агент хотел, чтобы другие агенты достигли некоторых состояний, что привело к каскаду все более крупных координирующих групп. Для достижения «целей больших, чем они сами», команда F также предположила, что это может быть достигнуто просто с помощью минимального критерия выживания/воспроизводства через противоречие между сотрудничеством и конкуренцией: в среде, где многие агенты конкурируют за ограниченную пропускную способность. Те, кто формирует группы сотрудничества, превзойдут отдельных агентов, но для формирования стабильных групп сотрудничества им необходимо разработать механизмы, подавляющие внутригрупповую конкуренцию. Когда такой механизм существует, единственный способ продвигать свои собственные интересы — это продвигать интересы коллектива, таким образом, имея цель, которая больше, чем вы сами.

Окончание слова

Как всегда, когда люди собираются вместе, чтобы поговорить об открытости, среди участников есть разнообразный набор определений и целей. Но, несмотря на это, существовало ощущение важности глубокого осознания того, «что может быть возможно» в том, что говорили различные группы — что возможно для среды, правила или агента? Возможно, это метакогнитивное осознание на фундаментальном уровне связано с потребностью в стремлении к открытости, чтобы предвидеть и гарантировать вещи, которые еще не могут быть известны.

День 4: «Ручной барсук» VS «Автоматический барсук»

Введение

В этот день обсуждались различия между возможными подходами к созданию систем коллективного обучения с особым акцентом на ручном и автоматическом представлениях при разработке архитектуры Badger.

Разница между ручным и автоматическим барсуком:

  • обе являются многоагентными системами; следовательно, социальное обучение в игре
  • в Manual Badger нет внешнего цикла, который изучает экспертную политику.
  • экспертная политика создается вручную, и существует бесконечный внутренний цикл

Можно представить разницу как «клеточные автоматы с несколько фиксированным правилом обновления» (ручной барсук) и «нейронные клеточные автоматы» (автоматический барсук). Конкретным примером ручного барсука является то, что мы называем меметическим барсуком.

Меметический барсук — упрощенное описание:

  • вдохновлен тем, как мемы распространяются в обществе
  • Клеточные автоматы с фиксированным правилом обновления, но которые можно динамически перепрограммировать загружаемыми в него мемами
  • каждая ячейка может хранить ограниченное количество мемов
  • мемы внутри ячейки голосуют за то, какой новый мем может войти/выйти
  • мемы хотят воспроизводить (распространять, размножать)
  • мы предполагаем, что это система с эволюционной динамикой (отбор, изменчивость и наследственность), и она будет развиваться открытым образом, не нуждаясь в оптимизации внешнего цикла, просто мемы, конкурирующие за ограниченные ресурсы (клетки).

Полезная аналогия: мем – это программа, ячейка/эксперт – процессор/оперативная память

Ручной подход Badger заставляет нас внимательно изучать то, что происходит во внутреннем цикле, вместо оптимизации внешнего цикла.

  1. Является ли ручной подход (отбрасывание DL) более безопасным, чем автоматический? (быстрее, интерпретируемее, проще для понимания людьми и т. д.)
  2. Каковы наши ожидания относительно длины внутреннего цикла? Короткий, длинный, бесконечный?
  3. Любые предложения по литературе и существующим симуляциям (например, Avida, Thierra и т. д.) и как их сравнить с Memetic Badger?
  4. Пожалуйста, не стесняйтесь задавать любые другие непредвзятые вопросы!

Самые популярные вопросы:

  • Команда A: Имея агентов с достаточно мощными моделями мира, что нам нужно добавить, чтобы среди них появились мемы/эволюция мемов?
  • Команда Б: Можно ли обучать эмерджентности и открытости с помощью обучения или метаобучения?
  • Команда C: Каковы надлежащие индуктивные смещения, которые заставляют работать ручного барсука? Может ли Badger извлечь выгоду из явного иерархического подключения к сети малого мира?
  • Команда D: Как мы проектируем вещи в масштабе?
  • Команда J: Будет ли автоматический барсук всегда конвергентным к конвергентной экспертной политике и не будет дивергентным во внутреннем цикле?

Резюме результатов

Команда А

Вопрос: Имея агентов с достаточно мощными моделями мира, что нам нужно добавить, чтобы среди них появились мемы/мемическая эволюция?

Команда отметила, что агенты могут моделировать мир и других агентов, делая это с помощью модели мира. Поэтому агенты наблюдают за событиями, происходящими в их окружении (включая то, что делают другие агенты), и это может быть источником интересных событий. Таким образом, агенты могут узнавать интересные вещи, копируя поведение других агентов. Этот факт привел команду к пониманию того, что поведенческий мем распространяется не преднамеренно, а просто одним агентом, имитирующим поведение другого агента.

Команда предложила две гипотезы.

Гипотеза 1: Наличие агентов, способных моделировать собственный процесс обучения, является достаточным условием для возникновения мемов.

Если агент наблюдает что-то в мире и приходит к выводу, что это то, чему он может научиться, чтобы это произошло, тогда агент может воспроизвести поведение другого агента, и мемы могут распространяться. Само по себе копирование не обязательно. Агенту нужно только сделать вывод, что вещи, которые он наблюдает, являются (или могут быть) вещами, которым он может научиться. Тогда он может понять, как сделать их для себя. Возможны неточные копии, и они облегчают эволюцию мемов. Следует ожидать неточностей и даже улучшений, поскольку каждый агент (по крайней мере, частично) выясняет поведение для себя, а не наивно копирует его. Это свойство фактически придает мемам устойчивость — выживаемость мема не зависит от точной копии, но его можно реконструировать даже по неточному описанию/восприятию.

Гипотеза 2: без модели мира копирующий мем возникнет даже при очень слабых условиях — если агент способен действовать самостоятельно и на него могут влиять внешние воздействия.

Команда Б

Вопрос. Можно ли развить эмерджентность и открытость с помощью обучения или метаобучения?

Команда обсудила, можно ли научиться эмерджентности, коллективности, открытости и самоорганизации. Они отметили, что появление интересного поведения связано с ручным барсуком, и важно понять, есть ли какие-то ограничения, присущие ручному или обученному подходу.

Команда обсудила дифференциальные элементы коллектива по отношению к монолитной системе:

  • Централизованные и децентрализованные цели
  • Монолитная система с разными параметрами везде -› разнообразная система
  • Введение любой общей/общей структуры имеет тенденцию к представлению населения.
  • Прямая оптимизация глобальной цели по сравнению с косвенной через локальную цель (даже не обращая внимания на глобальную)

Это привело к возникновению множества новых вопросов: возможно ли (научиться) оптимизировать глобальную цель без ведома отдельных агентов? Всегда ли это происходит через общение (прямое или косвенное)? Как мы можем научиться генерировать глобальные эмерджентные цели, используя только локальные цели? Могут ли одни только локальные цели привести к иерархии?

Команда также пришла к выводу, что коллектив представляет собой набор модулей с нарушенными целями, и что большие возмущения могут привести к более интересному поведению (например, цели рыб гораздо менее разнообразны, чем, например, люди).

Команда С

Вопрос. Каковы надлежащие индуктивные смещения, которые заставляют работать ручного барсука? Может ли Badger извлечь выгоду из явного иерархического подключения к сети малого мира?

Команда обсудила важность подключения для поиска совместных решений. Это приводит к необходимости различать мемы и сообщения, заключая, что мемы представляют собой союз языка и сообщений. Что побуждает к сотрудничеству между экспертами (вместо того, чтобы каждый решал это индивидуально)? Что облегчает поиск совместного решения, а не индивидуального решения? Интересно, что недавно была опубликована статья, в которой отмечалось, что человеческие младенцы видят очень размыто, и это заставляет их мозг интегрировать глобальную информацию вместо того, чтобы сосредотачиваться на локальных текстурах (как это обычно делают консети).

Команда предложила несколько гипотез относительно свойств, которые могли бы стимулировать сотрудничество, таких как обеспечение тесного мира или иерархической связности, опора на эффективный композиционный язык или распределение входной информации таким образом, что она должна распространяться по всей сети для интеграции.

Эти гипотезы приводят к возможным экспериментам. Некоторые из них сосредоточились на механизмах тестирования, которые способствуют совместным решениям, таким как случайное отключение экспертов, отключение связи и постепенные ограничения на подключение, применяемые либо напрямую, либо косвенно через функцию потерь. Они также предложили изучить влияние различных коммуникационных топологий (плоская, иерархическая, случайная и т. д.) и типов (дискретная, с использованием предопределенного словаря, композиционная и т. д.), а также то, как различные способы обработки памяти повлияют на производительность.

Команда Д

Вопрос. Как мы проектируем вещи в масштабе?

В некоторых случаях мы можем доказать масштабирование по построению, например. случайный поиск может в конечном итоге решить любую конечную проблему. Однако это может быть не тот вид масштабирования, который имеет значение. Более сложные смыслы «масштабирования» имеют практическое значение, например, решение задач с полиномиальной стоимостью ресурсов с точки зрения некоторой разумной меры размера или сложности задачи. Эти вещи трудно доказать или построить в целом, поэтому мы подумали об эмпирических подходах к ним. Одна из идей практической ценности заключалась в том, чтобы найти какой-то коррелят или пробу масштабирования, поскольку прямое измерение масштабирования экспоненциально дорого.

С этой целью мы подумали, например. будет ли разное количество шума в задаче ML сопоставляться с разными размерами проблем без шума с точки зрения количества параметров, необходимых для их решения, что позволит оценить, может ли подход решить очень большие проблемы, не прибегая к ним на самом деле.

Мы также подумали об источнике своего рода эффективного масштабирования методов для задач. Часто это возникает из-за модульности, например. в дискретной комбинаторной оптимизации вам нужно уметь разбивать задачи на подзадачи. Кажется, это может быть связано с наличием вспомогательного направления, где вы можете вложить больше ресурсов в решатель, чтобы преобразовать проблему в более легкую — это то, что мы хотим, чтобы эксперты Badger были. Например, в нейронных сетях это увеличение количества параметров, чтобы сделать ландшафт более выпуклым. Похоже, что и в других предметных областях мы можем найти это: решение спиновых очков с помощью обмена репликами (добавление дополнительных фантомных степеней свободы для создания множества связанных задач) или удовлетворение ограничений путем решения версий задачи с некоторыми ограничениями. опущены, чтобы сузить область поиска.

Команда J

Вопрос. Будет ли автоматический барсук всегда конвергентным с конвергентной экспертной политикой, а не дивергентным во внутреннем цикле?

Размышление над этим вопросом сначала привело к мысли о том, что, возможно, нет необходимости во внешнем цикле и что может быть достаточно небольшого набора базовых механизмов во внутреннем цикле. Вдохновленные эволюционной конкуренцией и естественной индукцией, они предложили ряд механизмов-кандидатов и выдвинули гипотезу, что они могут привести к сложному и разнообразному поведению меметического барсука.

Одним из таких механизмов была чрезвычайно простая экспертная политика, которая должна была установить любой входящий мем и позволить ему решить путем голосования и в зависимости от ввода, их право на выполнение действия и какой мем отбросить. Следуя принципам естественной индукции, эксперт всегда отбрасывал мем в пользу нового и выбирал его случайным образом, если не было решения голосования. Они также отметили, что ключевое значение имеет навязывание ограниченных ресурсов, поскольку именно это обеспечивает эффективность поиска и позволяет формировать поведение. Другим механизмом в этом направлении является предоставление отдельным экспертам доступа к разным ресурсам, например. ввод, вывод и внутренние/обрабатывающие эксперты.

Они предложили проверить успешность этих механизмов на множестве разнообразных, но относительно простых задач. Каждая задача будет определяться доменным языком (DSL) и вычислительной базой, представляющей собой мемы, представленные в виде кода. Некоторые основные виды поведения, которые, как ожидается, будут проявляться во время обучения, будут создаваться вручную (например, воспроизведение).

Окончание слова

A: Поведенческие мемы распространяются естественным образом, путем наблюдения и копирования. Роль моделей мира и самомоделирования в обучении и то, как неточности копирования приводят к устойчивости мемов.

B: Ручной барсук важен для того, чтобы узнать больше о неограниченных возможностях и эмерджентном поведении. Коллективы имеют ряд ключевых отличий от монолитных систем.

C: Важность связи для поиска совместных решений. Шумная или неполная локальная информация приводит к интеграции информации на глобальном уровне. Исследование различных моделей подключения.

D: Масштабирование может происходить методом грубой силы или с точки зрения сложности вычислений. Оценка того, может ли подход решить очень сложные проблемы, не делая этого на самом деле. Эффективное масштабирование часто возникает из-за модульности и разбиения проблем на подзадачи. Инвестирование большего количества ресурсов (первоначально) для преобразования проблемы в более легкую, например. увеличение параметров для увеличения выпуклости ландшафта. Решение упрощенных версий с опущенными ограничениями (например, латеральное мышление?), чтобы сузить пространство поиска.

Дж.: Ручной барсук может добиться успеха благодаря очень небольшому набору простых правил. Представьте мемы в виде кода, а естественный отбор и индукция сделают все остальное, совместно развивая более сложные механизмы. Отбор (и формирование поведения) посредством энергии и сотрудничества экспертов как способ максимизации выживания.

Некоторые дискуссии были сосредоточены на том, насколько ручной барсук важен для того, чтобы узнать больше о неограниченных возможностях и эмерджентном поведении. У коллективов есть несколько ключевых отличий от монолитных систем, среди которых поиск совместных решений и простота масштабирования системы. В этом смысле подключение является очень важным фактором, и одна из команд была заинтересована в изучении различных моделей подключения. Они отметили, что наличие зашумленной или неполной информации на локальном уровне приводит к интеграции информации на глобальном уровне. Дополнительное наблюдение заключалось в том, что поведенческие мемы распространяются естественным образом посредством наблюдения и имитации, если это позволяют модели мира, и что неточности приводят к устойчивости мема.

Однако масштабирование может происходить методом грубой силы или с точки зрения сложности вычислений, что более интересно. Одна команда обсудила суррогатные способы оценки того, будет ли подход масштабироваться по сложности, и то, как эффективное масштабирование часто является побочным продуктом модульности и разделения задач. Они поняли, что некоторые методы имеют определенные вычислительные затраты, но взамен они могут преобразовать проблему в более легкую. Одним из примеров является увеличение выпуклости ландшафта за счет увеличения количества параметров. Другая команда заметила, что одним из возможных способов масштабирования ручного барсука может быть внедрение очень простых правил, представление мемов в виде кода и предоставление естественному отбору и индукции сделать все остальное.

День 5: Открытые проблемы в (общем) ИИ

Введение

Темой пятого дня были «Открытые вопросы по общему ИИ». Мы считаем поучительным вернуться к вопросу о том, каковы основные остающиеся проблемы и как к ним подойти. В частности, мы хотим понять ограничения существующих методов и способы их преодоления.

Обсуждения были сосредоточены на нескольких темах, включая определение AGI, показатели для его измерения, открытые инновации, функции обучения без вознаграждения и эффективную передачу знаний о способностях между агентами.

Наиболее часто задаваемые вопросы / заявленные проблемы:

  • Команда A: Ограничения инженерных подходов
  • Команда B: Помимо функций вознаграждения и целей
  • Команда D: ОИИ — определение и отличие от узкого ИИ
  • Команда F: Мемы: от моделей поведения к концепциям
  • Команда J: Метрики для измерения AGI

Резюме результатов

Команда A: Ограничения инженерных подходов

Вопрос. «Общее» в ОИИ распространяется на проблемы, которые мы даже не знаем, как сформулировать. Есть ли фундаментальный предел того, как далеко могут нас завести инженерные подходы (контрольные показатели, количественная оценка), и как мы можем его преодолеть?

Возможно, общий ИИ не имеет четко определенной метрики. Примером способа обойти это являются GAN: «Давайте отбросим принципы количественной оценки и создадим эту систему — если она будет работать хорошо, мы будем работать над ней дальше». Мы могли бы получить ОИИ, неоднократно применяя этот подход.

Чтобы иметь возможность открывать принципиально новые вещи и возможности, нам нужны разнообразие подходов и открытость к обнаружению потенциальных «состояний открывания дверей»: инноваций, допускающих успешную экзаптацию.

Команда Б: Помимо функций и целей вознаграждения

Вопрос. Есть ли способ выйти за рамки функций вознаграждения? Можем ли мы создать агентов, которые «пытаются» что-то делать каким-либо другим способом, кроме как сказать им максимизировать что-то?

Возможный путь вперед может включать в себя локальные правила, подобные Хеббиану, которые заставляют агента воспроизводить прошлое поведение и позволяют ему создавать новые поведения из существующих. Другими возможностями являются эмерджентные вознаграждения, минимальные критерии, применяемые к поведению, и обучение, подобное Хеббиану, с корреляциями, распространяющимися назад во времени.

Команда D: AGI — определение и отличие от узкого ИИ

Вопрос. В чем разница между общим и узким ИИ?

Одна из возможностей заключается в том, что между ними нет большой разницы: общий ИИ может быть просто большим набором узких решений и эффективных алгоритмов обучения.

Возможное заметное различие между текущими, узкими системами ИИ и общим ИИ заключается в том, что общий ИИ должен иметь возможность создавать абстрактное представление ситуации, чтобы он мог эффективно рассуждать о ней. Кроме того, в такой системе абстрактные представления не должны быть строгими, а должны быть более гибкими и контекстно-зависимыми. Другие ограничения, возможно, связаны с отсутствием эффективных механизмов памяти (которые поддерживают обучение на протяжении всей жизни), отсутствием поддержки чувства упорядоченности и способности создавать значимые иерархические представления. Потребность в общении в группе агентов может способствовать возникновению более структурированных латентных репрезентаций.

Команда F: Мемы: от моделей поведения к концепциям

Вопрос: как мы можем перейти от агентов, которые могут копировать внешнее поведение друг друга (поведенческие мемы), к агентам, которые копируют концепции / внутренние «мыслительные» процессы?

Если агенты смогут делиться знаниями о своих способностях, это может значительно повысить скорость обучения, поскольку другие агенты могут сосредоточиться на обмене главным образом достижимыми целями, а не на случайном выборе новых, возможно, недостижимых задач.

Были рассмотрены два основных типа обмена знаниями: обмен знаниями путем демонстрации поведения другим и использование языка для обмена информацией с другими агентами. Предполагая, что у агентов есть достаточно выразительная модель мира, чтобы иметь возможность получить мем, агенту необходимо:

  • быть в состоянии понять способность, которая передается (будь то сообщение или поведение),
  • закодировать концепцию способности в каком-то скрытом формате и установить это как собственную цель для новой подполитики,
  • начать изучение политики, которая пытается достичь цели.

Это набросок механизма, позволяющего агенту передавать способности в виде мемов в общество.

Команда J: Метрики для измерения AGI

Вопрос. Какие показатели у нас есть и что необходимо для оценки AGI?

ОИИ сложно определить, и мы не хотим ограничивать его интеллектом человеческого уровня.

Одним из способов измерения интеллекта агента является измерение его способности решать проблемы и обобщать различные наборы проблем. Однако в какой-то момент люди не смогут придумать новые проблемы или даже оценить работу агента. В таких случаях может быть полезно определить сложность проблемы по степени, в которой другие агенты способны решить эту проблему.

Другой способ — позволить агентам объяснить проблему другим агентам и измерить эффективность, т. е. продолжительность объяснения. Более интеллектуальный агент должен лучше понимать/сжимать проблему и, следовательно, должен быть более эффективным в ее объяснении.

Окончание слова

Одна из общих тем заключается в том, что используемые здесь определения терминов расплывчаты (например, интеллект и общий интеллект), поэтому трудно судить о прогрессе в этих направлениях. С другой стороны, иногда полезно не слишком сосредотачиваться на цели, точно так же, как ИИ не должен сосредотачиваться на оптимизации одной цели, а скорее исследовать широкий спектр интересных вариантов поведения в открытой манере.

Первоначально опубликовано на https://www.goodai.com 17 августа 2021 г.