Минимизация с учетом резкости для эффективного улучшения обобщения

Для обучения глубокой сети выбор правильного оптимизатора стал важным выбором дизайна. Стандартные оптимизаторы (например, SGD, Adam и т. д.) ищут минимум на кривой потерь. Этот минимум ищется без учета кривизны, т. е. производной 2-й степени кривой потерь. Кривизна обозначает плоскостность кривой; низкая кривизна означает плоскую кривую, а высокая кривизна означает острую кривую. В этой статье [1] предлагается SAM, эффективный оптимизатор, который ищет широкие минимумы. SAM одновременно минимизирует величину потерь и резкость потерь.

Существует связь между геометрией ландшафта потерь и обобщением обученной сети. На рисунке 1 есть два минимума с одинаковым значением потерь. При этом один минимум (слева) имеет большую кривизну, а второй (справа) — малую. Эти два минимума одинаково хороши для стандартных оптимизаторов (например, SGD). Оба минимума имеют потери при обучении, равные нулю, т. е. L_s(w)=0. Тем не менее, SAM ищет локальный минимум справа.

В то время как стандартные оптимизаторы используют градиентный спуск, SAM использует как градиентный подъем, так и спуск. Соответственно, SAM — это двухэтапный оптимизатор. Начиная с точки A, SAM вычисляет направление подъема градиента (d1). Из точки А SAM делает шаг размером ρ в этом направлении (d1) до точки B; Это первый шаг. В точке B SAM вычисляет направление градиента спуска (d2). Наконец, начиная с точки A, SAM делает шаг размером η (скорость обучения) в направлении d2. Таким образом, ρ — это дополнительная скорость обучения, которая требуется SAM. Рисунок 2 иллюстрирует эту процедуру с двух точек зрения.

Если начальная точка А находится на крутой кривой потерь, SAM, скорее всего, выйдет из этой кривой и будет искать альтернативный минимум. Напротив, если начальная точка A находится на плоской кривой потерь, SAM будет снижаться нормально — как SGD — потому что обе точки A и B будут иметь одинаковый градиент.

SAM оценивается с использованием наборов данных компьютерного зрения. В таблицах 1 и 2 представлена количественная оценка с использованием случайно инициализированных сетей, обученных на CIFAR-{10,100} и ImageNet соответственно.

Таб. 3 оценивает SAM с использованием предварительно обученных сетей — с весами ImageNet — точно настроенными на небольших наборах данных (например, FGVC Aircraft, Flowers и т. д.)

Наконец, SAM оценивается с использованием зашумленного набора данных CIFAR10, в котором часть меток обучающего набора случайным образом переворачивается. Таб. 4 представлена количественная оценка SAM в сравнении с шумоустойчивыми подходами (например, Bootstrap). SAM обеспечивает конкурентоспособную производительность по сравнению с этими специфическими для шума подходами.

Мои комментарии

[W] Я бы хотел, чтобы в документе подчеркивалось, что SAM достигает значительного улучшения в сочетании с чрезмерно параметризованными сетями, а не с каждой сетью. Я обнаружил это опытным путем, оценив SAM в двух сетях ResNet18 и WideResNet50. Границы улучшения незначительны для ResNet18, но значительны для WideResNet50, как показано в следующей таблице. Об аналогичном выводе сообщается в [3]: «степень улучшения отрицательно коррелирует с уровнем индуктивных смещений, встроенных в архитектуру».

[S] Что мне больше всего нравится в этой статье, так это то, что она напоминает мне о том, что мы используем градиентный спуск, потому что он выполним с точки зрения вычислений, а не потому, что он оптимален. В 2022 году мы можем вычислить только 1-ю производную по весам сети, а 2-я производная (кривизна) вычислительно непосильна. Как только это вычислительное ограничение будет снято, можно будет исследовать больше [2].
Для тех, кто интересуется этой темой, в последующем документе [4] предлагается адаптивный SAM (ASAM). ASAM, разработанный Samsung Research, упрощает настройку гиперпараметра ρ. Я нашел ASAM полезным при многоступенчатой процедуре обучения (предварительное обучение -> тонкая настройка). Фиксированное значение ρ обеспечивает худшую производительность с SAM, но более высокую производительность с ASAM.

Ссылки

[1] Форет, П., Кляйнер, А., Мобахи, Х. и Нейшабур, Б., 2020. Минимизация с учетом резкости для эффективного улучшения обобщения. Препринт arXiv arXiv: 2010.01412.

[2] ЛеКун, Ю., Денкер, Дж.С. и Солла, С.А., 1990. Оптимальное повреждение головного мозга. В разделе Достижения в области нейронных систем обработки информации.

[3] Чен, X., Се, С. Дж. и Гонг, Б., 2021. Когда Vision Transformers превосходит ResNet без предварительной подготовки или сильного увеличения данных. препринт arXiv: 2106.01548.

[4] Квон, Дж., Ким, Дж., Парк, Х. и Чой, И.К., 2021. ASAM: Адаптивная минимизация с учетом резкости для масштабно-инвариантного обучения глубоких нейронных сетей. препринт arXiv arXiv:2102.11600.

Минимизация с учетом резкости для эффективного улучшения обобщения

Вопросы по теме