Недавняя разработка больших языковых моделей (LLM) позволяет им стать более универсальными и независимыми от конкретных задач. Принимая во внимание впечатляющую производительность LLM для захвата богатых концептуальных знаний в их лексическом встраивании, возникает интригующий вопрос: способны ли замороженные LLM решать мультимодальные задачи?

Вышеупомянутый вопрос, однако, недостаточно изучен и не имеет большого успеха. Чтобы заполнить этот пробел, в новой статье SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLM исследовательская группа из Google Research и Университета Карнеги-Меллона представляет Semantic Pyramid AutoEncoder (SPACE), первый успешный метод. за то, что замороженные LLM могут решать кросс-модальные задачи, превосходя современные модели понимания изображений более чем на 25%.

Команда резюмирует свой основной вклад следующим образом:

  1. Насколько нам известно, это первый успешный метод, в котором используется замороженная языковая модель, обученная исключительно на языковых токенах, для прямого создания содержимого изображения посредством обучения в контексте.
  2. Мы представляем новый токенизатор SPAE, создающий интерпретируемые представления семантических понятий и мелких деталей в виде многоязычных лингвистических токенов с регулируемой длиной.
  3. Мы предлагаем новый прогрессивный метод подсказок, который облегчает генерацию длинных кросс-модальных последовательностей в контексте.
  4. Мы оцениваем наш метод в задачах визуального понимания и генерации, и, в частности, наш подход превосходит лучшую опубликованную точность классификации нескольких изображений на 25% при тех же настройках в контексте.

Эта работа направлена ​​на оснащение замороженных LLM для моделирования мультимодальностей, включая изображения, видео или аудио в качестве модели понятных языковых последовательностей. Предлагаемый SPAE генерирует лексический…