Как может искусственный интеллект проявить любопытство?

Искусственное любопытство может быть недостающим звеном между машинным обучением и искусственным сознанием

Многие люди интересуются машинным обучением (или искусственным интеллектом как более общей областью исследований) благодаря необычным сюжетам, представленным в книгах, фильмах и сериалах. Действительно, очень увлекательно изучать и внедрять алгоритмы, которые могут специализироваться и превосходить людей в решении многих задач. Однако когда доходит до большинства проблем, с которыми мы обычно сталкиваемся, кажется, что мы далеки от разумных существ, присутствующих в рассказах Азимова и фильмах о Терминаторе. В действительности, нет общедоступной информации об искусственном интеллекте, созданном с необходимой сложностью, чтобы прийти в сознание и добровольно начать делать что-то самостоятельно.

Итак, чего нам не хватает, чтобы достичь такого уровня искусственного интеллекта? Ответ непрост, но я бы сказал, что большинство подходов к машинному обучению слишком зависят от человеческого контроля. Для обучения с учителем необходимо предоставить большие наборы данных с примерами, классифицированными вручную, тогда как при обучении с подкреплением агент сильно зависит от функции вознаграждения. В этом смысле эти алгоритмы сильно привязаны к задачам, для решения которых они были запрограммированы.

Но как сделать систему способной к обучению без явного программирования? Одна альтернатива - заинтересовать эту систему новыми вещами.

Что такое искусственное любопытство?

В этом контексте любопытство оформляется как заинтересованность агента в изучении неизвестных закономерностей. Идея состоит в том, чтобы вознаградить систему, если она обнаружит что-то неожиданное. С другой стороны, таким агентам должно быть скучно, когда они сталкиваются с предсказуемыми или непредсказуемыми по своей природе закономерностями. Второе утверждение может показаться странным, но для агента неразумно тратить много времени, пытаясь понять, как работает какое-то случайное событие. Например, статический шум, исходящий от радио, представляет собой непрерывный поток неизвестных данных. Однако извлечь из него значимую информацию невозможно.

Термин «искусственное любопытство» обозначает алгоритмы, реализующие этот механизм. Вознаграждение за любопытство добавляется к процессу обучения агента, пропорционально разнице между ожидаемым результатом заданного ввода и фактическим результатом. Если эта разница велика, это означает, что модель, которую агент «создал» об окружающем мире, не включает это конкретное событие. Получив вознаграждение за любопытство, агент побуждается узнать больше о том, что произошло. Однако чем больше об этом узнают, тем меньше будет разница между ожидаемым и реальным выпуском (и полученным вознаграждением), что приведет к снижению интереса.

Эта парадигма любопытства имеет много смысла, когда мы рассматриваем человеческое поведение в перспективе. Когда мы сталкиваемся с неизвестными, но все же доступными для изучения ситуациями, у нас появляется внутренняя мотивация, чтобы лучше их понять. Однако при решении какой-либо задачи, которая слишком проста или которая уже была решена много раз (например, повторяющиеся действия), нам становится скучно, и любопытство не является достаточной мотивацией для продолжения работы над ней.

Как искусственное любопытство может помочь в решении проблем?

Искусственное любопытство - мощный инструмент исследования. Это особенно важно для решения задач оптимизации. В таких проблемах иногда бывает трудно избежать неоптимального решения. В обучении с подкреплением это обычно делается путем принуждения агента к исследованию вначале. Однако определить хорошее соотношение разведки и эксплуатации непросто.

Для любопытных агентов исследование происходит естественным образом. Мотивация, которая подталкивает их вперед, является внутренней: вознаграждение из любопытства действует как внутренний стимул для поиска чего-то нового. Это можно легко совместить с задачей, которую пытается решить агент. В результате на агента действуют две различные мотивации: внешняя (за получение вознаграждения при обучении решению задачи) и внутренняя (вознаграждение за открытие нового).

Например, OpenAI смог разработать искусственный интеллект, который превосходит средние человеческие возможности в игре «Месть Монтесумы», только после использования агента, движимого любопытством [1]. Это игра для Atari с особыми механиками, которые действительно затрудняют освоение большинством методов машинного обучения.

Вывод

Даже не имея возможности разработать искусственные системы, способные выполнять такие парадигмы, как непрерывное обучение, искусственное сознание и самосознание, многие методы, которые могут помочь нам достичь этого, уже доступны.

использованная литература

[1] Бурда Ю., Эдвардс Х., Сторки А. и Климов О. (2018). «Исследование методом случайной сетевой дистилляции» препринт arXiv arXiv: 1810.12894.