Представляем технику оптимизации без дополнительных гиперпараметров!

Фон

На недавней конференции CVPR 2023 в Ванкувере мне выпала честь познакомиться с передовыми исследованиями в области трансферного обучения. Трансферное обучение применимо к нескольким областям, таким как компьютерное зрение, обработка естественного языка и молекулярное моделирование. Среди выдающихся работ, с которыми я столкнулся, одна выделялась инновационным подходом к тонкой настройке и потенциалом преодоления существующих ограничений.

За последние несколько лет точная настройка больших моделей для решения конкретной задачи приобрела популярность благодаря высокой точности, которая достигается при меньшем объеме обучения и меньшем объеме данных. Было показано, что начальные слои сети, как правило, изучают более общую информацию, а последние слои более «специфичны для задачи», поэтому мы хотели бы сохранить эту общую информацию, ориентируясь на наши собственные задачи.

На основе этих знаний были предложены методы. Например, имеет смысл выбрать разную скорость обучения для каждого слоя (используя меньшие скорости обучения для первых нескольких слоев и большие для последних). Недостатком этого является то, что он добавляет к проблеме несколько новых гиперпараметров, и поэтому он невозможен при попытке обучить более крупные модели на больших наборах данных. Это приводит к тому, что приходится полагаться на ручную эвристику и трудоемкий поиск гиперпараметров для нахождения оптимальных скоростей обучения.

Новый предложенный метод

В статье «Метод обучаемого прогнозируемого градиента для надежной точной настройки» авторы обращаются к описанным выше проблемам с помощью интересного решения под названием Обучаемый метод прогнозируемого градиента (TPGM) [1]. ]. Сформулировав тонкую настройку как двухуровневую задачу оптимизации с ограничениями, TPGM автоматизирует процесс изучения детальных ограничений для каждого уровня.

TPGM вводит набор радиусов проекций, представляющих ограничения расстояния между точно настроенной моделью и предварительно обученной моделью, и применяет их с помощью весовых проекций. Что отличает TPGM, так это его способность «изучать» эти проекционные радиусы с помощью нового сквозного двухуровневого подхода к оптимизации, устраняющего необходимость в ручном поиске или медленных непроизводных методах оптимизации (например, поиск по сетке). . Эти радиусы оптимизируются на основе проверочного набора данных, поэтому важно убедиться, что остальные параметры заморожены при выполнении этой части оптимизации, чтобы избежать утечки данных.

Обычно потери можно описать как:

Это представляет собой традиционный способ настройки гиперпараметров в машинном обучении. В этом случае цель состоит в том, чтобы минимизировать функцию потерь на проверочном наборе, где:

  • (x, y) — представляет пару входных данных
  • L(·) — функция потери задачи.
  • θt — представляет вес обучаемой модели.
  • λ — представляет гиперпараметры, такие как скорость обучения.
  • Dval и Dtr — представляют наборы данных проверки и обучения соответственно.

Традиционный процесс можно рассматривать как задачу двухуровневой оптимизации, поскольку он включает два этапа. Сначала мы настраиваем гиперпараметры λ, чтобы уменьшить ошибку в проверочном наборе, а затем в этом скорректированном контексте мы настраиваем параметры модели θt, чтобы минимизировать ошибку в обучающем наборе.

Функция потерь, представленная в Tian et al. [1] расширяет эту формулировку для точной настройки предварительно обученной модели, вводя дополнительное ограничение. Эта новая формулировка не только минимизирует функцию потерь, как и раньше, но также гарантирует, что расстояние между параметрами точной настройки модели (θt) и параметрами предварительно обученной модели (θ0) не превышает заданного предела γ.

Дополнительные параметры в этой функции потерь включают:

  • γ — скаляр, представляющий максимально допустимое расстояние между предварительно обученной и настроенной моделями.
  • θ0 — представляет веса предварительно обученной модели.
  • θt-θ0 — представляет разницу между весами настроенной и предварительно обученной моделей, эффективно измеряя «расстояние» между ними.

Добавление ограничения ||θt − θ0||* ≤ γ направлено на сохранение обобщения и надежности точно настроенной модели, гарантируя, что она не слишком сильно отклоняется от предварительно обученной модели ( допустимая величина отклонения будет определяться производительностью проверочного набора данных). Это формирует двухуровневую ограниченную задачу минимизации.

Заключение

Эксперименты авторов показывают, что TPGM превосходит ванильные методы тонкой настройки с точки зрения устойчивости к данным вне распространения (OOD), сохраняя при этом конкурентоспособную производительность для данных в распределении (ID). Например, применительно к наборам данных, таким как DomainNetReal и ImageNet, TPGM демонстрирует значительные относительные улучшения производительности OOD.

Чтобы углубиться, уникальные аспекты TPGM и их последствия можно лучше понять с помощью следующих ключевых моментов:

  • TPGM представляет собой преобразующее решение для тонкой настройки трансферного обучения.
  • TPGM формулирует тонкую настройку как двухуровневую задачу оптимизации с ограничениями, которая помогает автоматизировать изучение мелких ограничений для каждого уровня.
  • TPGM устраняет потребность в эвристиках для конкретных задач и поиске гиперпараметров, требующем много времени.
  • Ключевой вывод заключается в том, что разные слои требуют разных уровней регуляризации. Результаты показывают, что нижние слои нейронной сети имеют более жесткие ограничения, что указывает на их более тесную близость к идеальной модели. Это согласуется с общепринятым мнением о том, что нижние уровни, как правило, изучают более общие функции.

Как человек, работающий в области глубокого обучения, с предыдущим опытом исследований в области оптимизации, я считаю эту статью чрезвычайно важной. Предлагаемый метод, TPGM, предлагает значительный шаг вперед в мире трансферного обучения, потенциально прокладывая путь к более эффективным, надежным и интерпретируемым моделям в будущем.

Цитирование

[1] Тиан, Дж., Дай, X., Ма, С-Ю., Хе, З., Лю, Ю.-С., и Кира, З. (2023). Метод обучаемого прогнозируемого градиента для надежной тонкой настройки. В материалах конференции по компьютерному зрению и распознаванию образов (стр. TBD). doi:10.48550/arXiv.2303.10720

Ресурсы

Свяжитесь со мной!

Я начинающий исследователь в области глубокого обучения, в настоящее время работаю инженером по компьютерному зрению в компании KEF Robotics в Питтсбурге! Свяжитесь со мной и не стесняйтесь обращаться к нам, чтобы поговорить обо всем, что связано с ML!