🪐 КОСМОС-1 — глаза моделей большого языка 👀

Все были впечатлены возможностями Large Language Models (LLM), таких как ChatGPT. Некоторые люди даже считали их уже общим искусственным интеллектом, что, по меньшей мере, может быть немного надуманным. Я имею в виду, что эти модели могут понимать только текст!

Но прогресс в ИИ не замедляется! С КОСМОС-1 от Microsoft Research мы входим в мир Мультимодальных моделей больших языков (MLLM). Теперь мы можем общаться с LLM по поводу изображений! Поскольку Языковые модели — это интерфейсы общего назначения, мы можем выполнять множество различных задач, таких как визуальные ответы на вопросы, визуальные диалоги, распознавание чисел и многое другое.

Как это работает?
Грубо говоря, мы добавляем новый словарь во входной домен LLM, но давайте посмотрим, что я подразумеваю под этим.

🤖 Архитектура модели

Попробуйте и угадайте, что лежит в основе архитектуры…

Ты угадал! Это ваша (почти) стандартная архитектура преобразователя с тактовой частотой около 1,6 Б, что по сегодняшним меркам на самом деле не так уж и много.
Почему почти? Что ж, они применяют три дополнительных метода для (1.) повышения стабильности оптимизации, (2.) обеспечения более глубокой сети и (3.) лучшего обобщения на разные длины.

Они используют MAGNETO (H. Wang и S. Ma et al.) в качестве своего трансформатора, который «вводит дополнительную LayerNorm для каждого подуровня (т.
Они также используют тот же метод инициализации, что и MAGNETO, теоретически выведенный в статье DeepNet: Масштабирование преобразователей до 1000 слоев Х. Ванга и С. Ма и др.
Наконец, авторы используют другое относительное позиционное кодирование, которое лучше подходит для моделирования длинного контекста. xPOS Ю. Сан и др. может лучше обобщать на разные длины, т. е. тренироваться на коротких последовательностях при тестировании на более длинных последовательностях.

В конце концов, модель обучается, как и большинство других моделей генерации текста, с задачей прогнозирования следующего токена с учетом предыдущего контекста.

📄 Новый словарь — входное представление

В мире моделей-трансформеров язык, на котором он говорит, — это язык жетонов. Это означает, что если мы хотим интегрировать новую модальность, такую как зрение, нам просто нужно перевести изображение во встраивание токена!

Вложения для обычных токенов ввода на естественном языке можно найти с помощью справочной таблицы, ничего особенного. Как обычно, они также включают специальные маркеры начала и конца последовательности, ‹s›и‹/s›. , но недавно были введены специальные токены ‹image› и ‹/image›, которые аналогичным образом обозначают начало и конец встраивания закодированного изображения.

Примером мультимодальной подсказки может быть следующее:

‹s› ‹image› Встраивание изображения ‹/image› Это ВАЛЛ-И. ‹image› Встраивание изображений ‹/image› Это Ева. ‹/с›

Мы рассмотрели встраивания языков, но как мы получаем вложения для изображений?
Итак, больше трансформеров! После предварительной обработки изображения в формат 224x224 оно пропускается через соответствующую модель CLIP ViT-L/14, которая затем выводит окончательное встраивание изображения — новый словарь!
Параметры модели CLIP во время обучения замораживаются, кроме последнего слоя. . Это означает, что из 1,6 млрд параметров компонент встраивания зрения занимает 0,3 млрд параметров, а компонент MLLM имеет около 1,3 млрд параметров.

Кроме того, для уменьшения количества вложенных изображений используется ресемплер (как представлено в статье DeepMinds Flamingo) в качестве внимательного механизма объединения.

🤷🏼‍♂️ Это было?

Что касается дизайна модели… Да :)

То, что авторы делают очень ясно, это то, что

«Модели обучаются на мультимодальных корпусах веб-масштаба».

Они рассказывают о том, как они составили весь набор данных из нескольких различных наборов данных из чистых текстовых корпусов, пар изображений и подписей и чередующихся данных изображений и текста, а также о том, как они собрали и очистили некоторые из своих собственных данных.

Большая часть статьи посвящена их экспериментам и оценке. Авторы оценивают КОСМОС-1 на множестве различных типов задач.
Излишне говорить, что в большинстве экспериментов по различным задачам модель КОСМОС-1 превосходит конкурентов.

Вот некоторые из случаев, которые они протестировали и сравнили с другими подходами.

👀 Задания на язык восприятия

Это включает в себя такие задачи, как добавление подписей к изображениям и визуальные ответы на вопросы, а также различение нулевой и малой производительности.

В эту категорию также попадают ответы на вопросы веб-страницы, которые оцениваются отдельно от других визуальных заданий на ответы на вопросы. Чтобы сравнить КОСМОС-1 с обычным LLM, они модифицируют подсказки следующим образом:

Подсказка LLM: «Учитывая приведенный ниже контекст веб-страницы, извлеките ответ из заданного текста следующим образом: Вопрос: Кто является издателем этой книги? Ответ: Penguin Books Ltd. Контекст: {WebText} Q: {question} A: {ответ} ”, где {WebText} представляет текст, извлеченный из веб-страницы.

Подсказка KOSMOS-1:используется та же подсказка, что и для LLM, но перед подсказкой добавляется изображение.

🧠 Невербальное мышление

Настоящим авторы проводят тест Raven IQ для оценки нулевого невербального мышления модели без явной тонкой настройки.

🔠 Понимание языка без OCR

Эта задача направлена на понимание текста и изображений, не полагаясь на оптическое распознавание символов (OCR).

🖼️ Классификация изображений Zero-Shot

Как уже упоминалось, LLM — это интерфейсы общего назначения, поэтому мы также можем позволить модели выполнять классификацию изображений.
Тем не менее, похоже, что добавление словесных описаний изображения в контексте может помочь модели КОСМОС-1 лучше распознавать визуальные категории. .

Заключение

Авторы из Microsoft Research представили свою новейшую мультимодальную модель большого языка, которая может воспринимать общие модальности, следовать инструкциям и выполнять обучение в контексте. архитектура модели производительность модели, размер и качество набора данных, а также усилия, затраченные на оценку, очень впечатляют. Этот подход не только позволяет включать модальности видения, но и любого вида, насколько они могут быть эффективно представлены в виде вложений.

Эта работа приближает нас на один шаг к Общему искусственному интеллекту, снабжая ИИ еще одним чувством, которое используется нами, людьми, возможно, самыми распространенными существами в этом мире.