В последние годы высокие характеристики трансформаторов зрения (ViT) привлекают все большее внимание исследователей. Однако впечатляющие достижения ViTs опираются на сложные конструкции и массивные наборы данных, что приводит к высоким затратам на вычисления и низкой эффективности обучения модели.

В статье Aggregating Nested Transformers исследовательская группа из Google Cloud AI, Google Research и Университета Рутгерса предлагает упростить сложную конструкцию ViT за счет включения вложенных преобразователей (NesT), которые просто складывают базовые слои трансформатора для обработки не- перекрытие блоков изображения по отдельности. Новый подход обеспечивает превосходную точность классификации ImageNet и повышает эффективность обучения.

Хорошо спроектированные ViT могут превзойти современные сверточные нейронные сети в задачах компьютерного зрения, когда доступны сотни миллионов помеченных обучающих данных. Это связано с тем, что такие массивные входные данные обеспечивают достаточные индуктивные смещения, такие как локальность и эквивалентность перевода, для обучения сильных моделей ViT.

Предыдущие исследования показали, что ViT улавливают поведение локальности, поскольку нижние слои локально обслуживают окружающие пиксели, а верхние слои имеют дело с зависимостями на большом расстоянии. Однако, поскольку диапазон глобального самовнимания на парах пикселей в изображениях с высоким разрешением имеет тенденцию быть очень высоким, это приводит к тяжелой вычислительной нагрузке.

Недавние попытки решить эту проблему предложили заменить целостное глобальное самовнимание такими методами, как локальное самовнимание и использование иерархических структур-преобразователей для выполнения внимания в локальных участках изображения. Обратной стороной этих подходов является то, что они требуют специализированных и сложных дизайнов для обеспечения обмена информацией через патчи и их трудно реализовать.

Исследователи резюмируют предложенный ими подход NesT следующим образом:

  1. Демонстрация интеграции иерархически вложенных преобразователей с предлагаемой функцией агрегирования блоков может превзойти предыдущие сложные (локальные) методы самовнимания, что приведет к существенному упрощению архитектуры и повышению эффективности данных.
  2. NesT обеспечивает превосходную точность классификации ImageNet.
  3. При правильной деагрегации блоков NesT также может быть преобразован в мощный декодер, который обеспечивает лучшую производительность, чем свертки с сопоставимой скоростью. Это демонстрируется генерацией 64 × 64 ImageNet, важной вехой на пути к внедрению трансформаторов для эффективного генеративного моделирования.
  4. Новый метод интерпретации процесса рассуждений NesT путем обхода его древовидной структуры обеспечивает уникальный тип визуальной интерпретируемости, который может объяснить, как агрегированные локальные преобразователи выборочно обрабатывают локальные визуальные сигналы из семантических фрагментов изображения.

NesT разработан так, чтобы проводить локальное внимание к каждому блоку изображения независимо, а затем иерархически вкладывать эти блоки. Связь обработанной информации между пространственно смежными блоками может быть выполнена с помощью предлагаемой агрегации блоков между каждыми двумя иерархиями. Команда отмечает, что NesT передает и смешивает глобальную информацию только на этапе агрегирования блоков с помощью простых пространственных операций. Эти конструктивные особенности позволяют NesT привлекать внимание местного населения для повышения эффективности обработки данных.

Исследователи провели эксперименты с наборами данных CIFAR, чтобы сравнить эффективность данных предлагаемого ими NesT с базовыми моделями ViT ResNet, EffNet, DeiT и Swin.

Результаты показывают, что обучение NesT с параметрами 38M и 68M обеспечивает точность ImageNet на 83,3 и 83,8 процента для изображений с размерами 224 × 224, превосходя предыдущие методы с уменьшением параметров до 57 процентов. Благоприятная эффективность данных NesT воплощается в его быстрой конвергенции: от 75,9 процента на 30 эпохах до 82,3 процента на 100 полных эпох обучения. Наконец, исследование показывает, что обучение NesT с параметрами 6M с использованием одного графического процессора приводит к 96-процентной точности на CIFAR10, устанавливая новый уровень развития техники для преобразователей зрения.

Исследование показывает, что простое объединение вложенных преобразователей может привести к повышению точности, эффективности обработки данных и конвергенции преобразователей изображения.

Статья Агрегирование вложенных преобразователей находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен, Чейн Чжан

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.