Vison Transformer (ViT) стал доминировать в области компьютерного зрения. Он продемонстрировал превосходную производительность и гибкость при обработке входных последовательностей различной длины. Его высокая производительность сделала его грозным претендентом на замену обычной сверточной нейронной сети (CNN).

В новой статье Patch n’ Pack: NaViT, преобразователь изображения для любого соотношения сторон и разрешения исследовательская группа Google DeepMind представляет расширенную версию ViT с Native Resolution ViT (NaViT). Эта усовершенствованная модель предназначена для обработки входных последовательностей произвольного разрешения и соотношения сторон, что еще больше расширяет ее потенциальное применение в различных задачах компьютерного зрения.

Группа резюмирует свои основные выводы в этой работе следующим образом:

  1. Случайная выборка разрешений во время обучения значительно снижает стоимость обучения.
  2. NaViT обеспечивает высокую производительность в широком диапазоне разрешений, обеспечивая плавный компромисс между затратами и производительностью во время логического вывода, и может быть адаптирован к новым задачам с меньшими затратами.
  3. Фиксированные формы пакетов, включенные с помощью упаковки примеров, приводят к новым исследовательским идеям, таким как выборка разрешения с сохранением соотношения сторон, переменная скорость отбрасывания токенов и адаптивные вычисления.

NaViT расширяет возможности ViT, позволяя упаковывать несколько исправлений из разных изображений в одну последовательность, которую исследователи назвали Patch n’ Pack. Чтобы включить эту возможность, команда вносит некоторые изменения в исходный ViT: 1) замаскированное внимание к самому себе и замаскированное объединение, чтобы предотвратить взаимодействие примеров друг с другом; 2) факторизованные и дробные позиционные вложения, которые позволяют изменять соотношение сторон и легко экстраполировать до невидимых разрешений.

Кроме того, Patch n’ Pack делает применимыми некоторые новые и эффективные методы обучения. Он обеспечивает непрерывное сбрасывание токенов, при этом скорость сбрасывания токенов может варьироваться…