Как обобщаются большие нейронные сети

Меньше значит больше.
-Людвиг Мис ван дер Роэ
Меньше значит больше только тогда, когда больше — это слишком много.
- Фрэнк Лойд Райт

Глубокие нейронные сети (DNN) глубоко изменили ландшафт машинного обучения, часто становясь синонимом более широких областей искусственного интеллекта и машинного обучения. Тем не менее, их рост был бы невообразим без их сообщника: стохастического градиентного спуска (SGD).

SGD вместе со своими производными оптимизаторами составляет ядро ​​многих алгоритмов самообучения. По сути, концепция проста: вычислите потери задачи, используя обучающие данные, определите градиенты этих потерь по отношению к ее параметрам, а затем отрегулируйте параметры в направлении, которое минимизирует потери.

Звучит просто, но в приложениях он оказался чрезвычайно мощным: SGD может находить решения для всех видов сложных задач и обучающих данных, если он используется в сочетании с достаточно выразительной архитектурой. Особенно хорошо он помогает находить наборы параметров, которые обеспечивают идеальную работу сети на обучающих данных. Это так называемый режим интерполяции. Но при каких условиях считается, что нейронные сети хорошо обобщают, то есть хорошо работают на невидимых тестовых данных?

В некотором смысле это даже слишком мощно: возможности SGD не ограничиваются только обучающими данными, которые, как можно ожидать, приведут к хорошему обобщению. Это было показано, например. в этой влиятельной статье говорится, что SGD может заставить сеть идеально запоминать набор изображений, которые были помечены случайным образом (существует глубокая связь между памятью и обобщением, о которой я писал ранее). Хотя это может показаться сложной задачей — учитывая несоответствие между метками и содержимым изображения — для нейронных сетей, обученных с помощью SGD, это на удивление просто. На самом деле, это не намного сложнее, чем подобрать подлинные данные.

Эта способность указывает на то, что НС, обученные с помощью SGD, подвергаются риску переобучения, и меры по регуляризации переобучения, такие как нормы, ранняя остановка и уменьшение размера модели, становятся решающими, чтобы избежать этого.

С точки зрения классической статистики, меньше значит больше, и поэтому больше значит меньше, как кратко изложено в…