Все были впечатлены возможностями Large Language Models (LLM), таких как ChatGPT. Некоторые люди даже считали их уже общим искусственным интеллектом, что, по меньшей мере, может быть немного надуманным. Я имею в виду, что эти модели могут понимать только текст!

Но прогресс в ИИ не замедляется! С КОСМОС-1 от Microsoft Research мы входим в мир Мультимодальных моделей больших языков (MLLM). Теперь мы можем общаться с LLM по поводу изображений! Поскольку Языковые модели — это интерфейсы общего назначения, мы можем выполнять множество различных задач, таких как визуальные ответы на вопросы, визуальные диалоги, распознавание чисел и многое другое.

Как это работает?
Грубо говоря, мы добавляем новый словарь во входной домен LLM, но давайте посмотрим, что я подразумеваю под этим.

🤖 Архитектура модели

Попробуйте и угадайте, что лежит в основе архитектуры…

Ты угадал! Это ваша (почти) стандартная архитектура преобразователя с тактовой частотой около 1,6 Б, что по сегодняшним меркам на самом деле не так уж и много.
Почему почти? Что ж, они применяют три дополнительных метода для (1.) повышения стабильности оптимизации, (2.) обеспечения более глубокой сети и (3.) лучшего обобщения на разные длины.

  1. Они используют MAGNETO (H. Wang и S. Ma et al.) в качестве своего трансформатора, который «вводит дополнительную LayerNorm для каждого подуровня (т.
  2. Они также используют тот же метод инициализации, что и MAGNETO, теоретически выведенный в статье DeepNet: Масштабирование преобразователей до 1000 слоев Х. Ванга и С. Ма и др.
  3. Наконец, авторы используют другое относительное позиционное кодирование, которое лучше подходит для моделирования длинного контекста. xPOS Ю. Сан и др. может лучше обобщать на разные длины, т. е. тренироваться на коротких последовательностях при тестировании на более длинных последовательностях.

В конце концов, модель обучается, как и большинство других моделей генерации текста, с задачей прогнозирования следующего токена с учетом предыдущего контекста.

📄 Новый словарь — входное представление

В мире моделей-трансформеров язык, на котором он говорит, — это язык жетонов. Это означает, что если мы хотим интегрировать новую модальность, такую ​​как зрение, нам просто нужно перевести изображение во встраивание токена!

Вложения для обычных токенов ввода на естественном языке можно найти с помощью справочной таблицы, ничего особенного. Как обычно, они также включают специальные маркеры начала и конца последовательности, ‹s›и‹/s›. , но недавно были введены специальные токены ‹image› и ‹/image›, которые аналогичным образом обозначают начало и конец встраивания закодированного изображения.

Примером мультимодальной подсказки может быть следующее:

‹s› ‹image› Встраивание изображения ‹/image› Это ВАЛЛ-И. ‹image› Встраивание изображений ‹/image› Это Ева. ‹/с›

Мы рассмотрели встраивания языков, но как мы получаем вложения для изображений?
Итак, больше трансформеров! После предварительной обработки изображения в формат 224x224 оно пропускается через соответствующую модель CLIP ViT-L/14, которая затем выводит окончательное встраивание изображения — новый словарь!
Параметры модели CLIP во время обучения замораживаются, кроме последнего слоя. . Это означает, что из 1,6 млрд параметров компонент встраивания зрения занимает 0,3 млрд параметров, а компонент MLLM имеет около 1,3 млрд параметров.

Кроме того, для уменьшения количества вложенных изображений используется ресемплер (как представлено в статье DeepMinds Flamingo) в качестве внимательного механизма объединения.

🤷🏼‍♂️ Это было?

Что касается дизайна модели… Да :)

То, что авторы делают очень ясно, это то, что

«Модели обучаются на мультимодальных корпусах веб-масштаба».

Они рассказывают о том, как они составили весь набор данных из нескольких различных наборов данных из чистых текстовых корпусов, пар изображений и подписей и чередующихся данных изображений и текста, а также о том, как они собрали и очистили некоторые из своих собственных данных.

Большая часть статьи посвящена их экспериментам и оценке. Авторы оценивают КОСМОС-1 на множестве различных типов задач.
Излишне говорить, что в большинстве экспериментов по различным задачам модель КОСМОС-1 превосходит конкурентов.

Вот некоторые из случаев, которые они протестировали и сравнили с другими подходами.

👀 Задания на язык восприятия

Это включает в себя такие задачи, как добавление подписей к изображениям и визуальные ответы на вопросы, а также различение нулевой и малой производительности.

В эту категорию также попадают ответы на вопросы веб-страницы, которые оцениваются отдельно от других визуальных заданий на ответы на вопросы. Чтобы сравнить КОСМОС-1 с обычным LLM, они модифицируют подсказки следующим образом:

Подсказка LLM: «Учитывая приведенный ниже контекст веб-страницы, извлеките ответ из заданного текста следующим образом: Вопрос: Кто является издателем этой книги? Ответ: Penguin Books Ltd. Контекст: {WebText} Q: {question} A: {ответ} ”, где {WebText} представляет текст, извлеченный из веб-страницы.

Подсказка KOSMOS-1:используется та же подсказка, что и для LLM, но перед подсказкой добавляется изображение.

🧠 Невербальное мышление

Настоящим авторы проводят тест Raven IQ для оценки нулевого невербального мышления модели без явной тонкой настройки.

🔠 Понимание языка без OCR

Эта задача направлена ​​на понимание текста и изображений, не полагаясь на оптическое распознавание символов (OCR).

🖼️ Классификация изображений Zero-Shot

Как уже упоминалось, LLM — это интерфейсы общего назначения, поэтому мы также можем позволить модели выполнять классификацию изображений.
Тем не менее, похоже, что добавление словесных описаний изображения в контексте может помочь модели КОСМОС-1 лучше распознавать визуальные категории. .

Заключение

Авторы из Microsoft Research представили свою новейшую мультимодальную модель большого языка, которая может воспринимать общие модальности, следовать инструкциям и выполнять обучение в контексте. архитектура модели производительность модели, размер и качество набора данных, а также усилия, затраченные на оценку, очень впечатляют. Этот подход не только позволяет включать модальности видения, но и любого вида, насколько они могут быть эффективно представлены в виде вложений.

Эта работа приближает нас на один шаг к Общему искусственному интеллекту, снабжая ИИ еще одним чувством, которое используется нами, людьми, возможно, самыми распространенными существами в этом мире.