От AlphaGo в игре Go до AlphaStar в StarCraft II, а затем OpenAI Five в Dota 2 были сделаны прорывы в исследованиях сверхинтеллектуальных агентов во все более реалистичных и открытых виртуальных средах. Теперь наш мульти-талантливый ИИ-агент «Призрак в Майнкрафте» (GITM) способен освоить игру «Майнкрафт»!

В самой продаваемой игре «Minecraft» мы можем заниматься различными видами деятельности, такими как выживание, исследование и создание, и все это очень близко имитирует реальный мир. Многие известные исследовательские группы, в том числе DeepMind и OpenAI, посвятили себя изучению агентов ИИ, надеясь найти ответы на вопросы о реальном мире в игре.

Мы предложили мульти-талантливого ИИ-агента под названием Ghost in the Minecraft (GITM), который может автономно обучаться и решать задачи. GITM не только превосходит всех предыдущих агентов в «Майнкрафте», но и значительно снижает затраты на обучение. Это исследование знаменует собой важный шаг к достижению Общего искусственного интеллекта (AGI). AGI стремится разработать интеллектуальных агентов, способных воспринимать, понимать и взаимодействовать с окружающей средой открытого мира, что может привести к значительным прорывам и достижениям в таких отраслях, как робототехника и автономное вождение, что будет способствовать дальнейшему развитию технологий искусственного интеллекта.

Интеллектуальный агент способен полностью разблокировать 262 элемента в дереве технологий Сверхмира в «Minecraft» (по сравнению с 78 элементами, разблокированными всеми предыдущими агентами, включая OpenAI и DeepMind). Он обеспечивает значительное увеличение успешности выполнения стандартной задачи «Получить бриллиант» на 47,5 % (с 20 % с помощью метода OpenAI VPT до 67,5 % с помощью GITM). Более того, агенту требуется всего два дня обучения на одном узле ЦП, что сокращает количество шагов обучения для взаимодействия с окружением до одной десятитысячной по сравнению с предыдущими методами. Это намного меньше, чем 6480 дней GPU, необходимых для метода VPT OpenAI, или 17 дней GPU, необходимых для DreamerV3 DeepMind.

Страница проекта: https://github.com/OpenGVLab/GITM

ИИ теперь способен выживать, исследовать и творить в открытом мире, как и люди!

Талантливый ИИ-агент «Призрак в Майнкрафте» (GITM) осваивает игру «Майнкрафт» в режиме выживания, начиная с нуля и приобретая все предметы в основном мире, включая добычу алмазов и создание зачарованных книг!

Почему «Майнкрафт»?

В текущих исследованиях ИИ все больше внимания уделяется разработке агентов ИИ с универсальными способностями. Ожидается, что эти агенты овладеют широким спектром навыков, адаптируются к различным изменениям окружающей среды, а также более глубоко моделируют и учитывают человеческие возможности в сложных задачах.

В всемирном бестселлере «Minecraft» мы можем увидеть различные виды деятельности, такие как выживание, исследование и создание, и все они очень точно имитируют реальный мир. «Майнкрафт» похож на миниатюрную версию реального мира. Исследователи стремятся разработать агента ИИ, способного преодолевать все технические проблемы в «Minecraft», тем самым продвигаясь к созданию общего искусственного интеллекта, который может автономно обучаться и осваивать навыки во всем реальном мире.

Однако агенты ИИ в «Майнкрафте» сталкиваются с интересным парадоксом Моравца:

Относительно сложные для человека задачи, такие как игра в шахматы, относительно легки для ИИ, в то время как более простые для человека задачи в открытых мирах, таких как «Minecraft», подразумевающие взаимодействие с окружающей средой, планирование и принятие решений, создают огромные проблемы для ИИ. .

GITM успешно освобождается от ограничений этого парадокса и достигает значительных прорывов в сложных и реалистичных средах. Это открывает новые возможности для развития технологий ИИ и создания более универсальных агентов ИИ.

Насколько мощен GITM?

Широкий охват задач: GITM достигает 100% охвата задач во всех технических задачах в Overworld «Minecraft», открывая полное дерево технологий. Напротив, сумма всех предыдущих агентов могла покрыть только 30%.

Высокий показатель успешности выполнения задачи. В долгожданной задаче «Получить алмаз» GITM достигает показателя успешности 67,5 %, что на +47,5 % больше по сравнению с текущей лучшей производительностью (VPT OpenAI).

Исключительная эффективность обучения. Удивительно, но GITM достигает новых высот в эффективности обучения. Требуемое количество шагов взаимодействия со средой составляет всего одну десятитысячную от предыдущих методов, и его можно обучить всего за два дня с использованием одного узла ЦП. Это огромное улучшение по сравнению с 6480 днями GPU, необходимыми для OpenAI VPT, или 17 днями GPU, необходимыми для DreamerV3 DeepMind.

Как был построен GITM?

Традиционные агенты RL сталкиваются с трудностями при сопоставлении очень сложных задач с низкоуровневыми операциями с клавиатурой и мышью.

GITM отказывается от традиционной архитектуры на основе RL и принимает новую парадигму с крупномасштабной языковой моделью (LLM) в качестве ядра интеллектуального агента.

GITM состоит в основном из трех частей: LLM Decomposer, LLM Planner и LLM Interface. Он постепенно разбивает сложную цель на подцели и структурированные действия, пока не достигнет самого низкого уровня операций с клавиатурой и мышью:

  • LLM Decomposer использует внешние знания, такие как базы данных знаний об играх в Интернете, для разложения сложной цели на более простые подцели.
  • LLM Planner планирует серию структурированных действий для каждой подцели и корректирует планирование на основе отзывов. Он также может совершенствоваться, постоянно обобщая успешный опыт.
  • Интерфейс LLM выполняет структурированные действия с помощью низкоуровневых операций с клавиатурой и мышью и получает наблюдения во время взаимодействия с окружающей средой.

Расширенные приложения GITM

Кроме того, GITM можно применять для более сложных задач в «Minecraft», таких как строительство убежища, сельскохозяйственных угодий, железного голема для выживания, создание цепи из красного камня для автоматических устройств и создание портала Нижнего мира для входа в Нижний мир. Эти задачи демонстрируют мощные возможности и масштабируемость GITM, позволяя агенту выживать и исследовать более продвинутые миры в «Minecraft».