Недавние исследования показали, что модели преобразователей зрения (ViT) могут достигать лучших результатов, чем большинство современных сверточных нейронных сетей (CNN), в различных задачах распознавания изображений, и могут делать это при использовании значительно меньших вычислительных ресурсов. Это побудило некоторых исследователей предположить, что ViT могут заменить CNN в этой области.

Однако, несмотря на свою многообещающую производительность, ViT чувствительны к выбору оптимизатора, выбору гиперпараметров обучения для конкретного набора данных, глубине сети и другим факторам. CNN, напротив, гораздо более надежны и исключительно просты в оптимизации.

Эти компромиссы ViT / CNN вдохновили недавнее исследование исследовательской группы из Facebook AI и Калифорнийского университета в Беркли, которая предлагает лучшее из обоих миров решение. В статье Ранние свертки помогают трансформерам видеть лучше команда использует стандартную облегченную сверточную основу для моделей ViT, которая значительно увеличивает стабильность оптимизатора и улучшает пиковую производительность без ущерба для вычислительной эффективности.

ViT предлагают сообществу компьютерного зрения новую альтернативу CNN, и все большее количество исследований применяется для улучшения ViT с помощью многомасштабных сетей, увеличения глубины, априорных значений местоположения и т.д. нестабильные проблемы с оптимизацией. Команда предполагает, что различия в возможности оптимизации между ViT и CNN заключаются в первую очередь в ранней визуальной обработке, выполняемой ViT, которая «исправляет» входное изображение на неперекрывающиеся фрагменты, чтобы сформировать входной набор преобразователя кодировщика. Эта основа исправления ViT реализована как свертка большого шага, тогда как исследования показали, что в типичных проектах CNN передовые методы сводятся к меньшему стеку ядер 3 × 3 шага-два в качестве основы сети.

Основываясь на этих факторах, команда решила ограничить свертки в ViT ранней визуальной обработкой, заменив стержень patchify его аналогом сверточного стержня и удалив один блок преобразователя, чтобы компенсировать лишние провалы сверточного стержня.

Чтобы сравнить стабильность моделей ViT с исходным стержнем patchify (P) (ViTP) и сверточным стержнем © (ViTC), команда провела эксперименты со стандартными наборами данных ImageNet-1k и сообщила об первой ошибке. Они выбрали RegNetY, ультрасовременную CNN, которую легко оптимизировать, в качестве базовой линии с хорошей стабильностью.

В экспериментах, проверяющих, насколько быстро сети сходятся к своей асимптотической ошибке, ViTC сходился быстрее, чем ViTP, во всех расписаниях на 50, 100 и 200 эпох. Кратчайший график обучения (50 эпох) показал наиболее значительное улучшение: у ViTP-1GF была 10-процентная ошибка первого уровня, в то время как ViTC -1GF сократила ее примерно до шести процентов.

Исследователи также изучили, насколько хорошо AdamW и SGD оптимизируют модели ViT с двумя типами стержней, и результаты показали, что модели ViTP резко падают при обучении с SGD во всех настройках, в то время как модели ViTC демонстрируют гораздо меньшие интервалы ошибок между SGD и AdamW в разных условиях. все расписания тренировок и сложности модели.

Кроме того, результаты экспериментов с максимальной производительностью подтвердили, что сверточный стержень ViTC улучшает не только стабильность оптимизации, но и точность модели, обеспечивая повышение точности на 1–2% в ImageNet-1k при сохранении провалов и времени выполнения.

В целом, исследование показывает, что простая замена стержня ViT patchify на стандартный сверточный стержень на ранних этапах визуальной обработки приводит к заметным улучшениям с точки зрения стабильности оптимизатора и точности окончательной модели.

Статья Ранние свертки помогают трансформаторам видеть лучше на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен, Чейн Чжан

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.