В этой статье объясняется простейшее переоснащение и регуляризация. Мы рассмотрим, что такое переобучение, почему это происходит, последствия переобучения, как определить, переоснащается ли модель, и способы избежать переобучения с помощью регуляризации.

Переоснащение

Переобучение - это когда обученная модель запоминает нежелательные шаблоны или шум из набора обучающих данных. Это происходит из-за слишком большой обучаемости или способности к обучению (слишком много скрытых слоев или нейронов в каждом слое). Следствием переобучения является то, что модель не может быть обобщена на выборки вне ее обучающего набора, что в целом снижает производительность модели. Чтобы определить, переоснащается ли модель, во время обучения сравните значение потерь в наборе для обучения и тестирования. Если потери на тестовом наборе намного больше, чем в обучающем наборе, тогда модель переобучена, особенно если потери на обучение низкие. Однако также нормально, что потеря теста немного больше, чем потеря тренировки.

Чтобы предотвратить переобучение, существуют различные способы, такие как: уменьшить способность к обучению модели, использовать другую модель, использовать регуляризацию или методы борьбы с переобучением и т. Д.

Регуляризация

Теперь мы обсудим регуляризацию и различные ее методы. Интеллектуальная карта показывает несколько техник, которые подпадают под регуляризацию.

Регуляризация - это способ предоставления дополнительной информации модели машинного обучения для уменьшения переобучения и улучшения обобщения.

1. Увеличение данных: это самый простой способ упорядочить модель путем обучения с большим количеством данных. Поскольку сбор и маркировка данных обычно дороги, новые данные генерируются из существующих данных с помощью поворота изображения, переворачивания (вверх вниз, влево вправо), изменения яркости, масштабирования, поворота, перемещения и т. Д.

2. Ранняя остановка. Обычно в моделях машинного обучения для обучения используются итерационные методы. Тогда количество итераций (или эпох) является настраиваемым гиперпараметром. Ранняя остановка - это просто процесс остановки обучения прямо перед тем, как потери валидации начнут расти.

3. Регуляризация LP (Тихонова): это наиболее распространенный метод регуляризации. Он заключается во введении штрафа, учитывающего норму параметров модели (весов):

Сумма по всем параметрам обучаемой модели. Лямбда - это настраиваемый коэффициент регуляризации, который определяет силу регуляризации. p - размерность нормы, если она установлена ​​на 1, то регуляризация рассматривается как LASSO, если она установлена, то регуляризация - это уменьшение веса

4. Исключение: это еще один способ предотвратить переобучение нейронных сетей. Исследователи заметили, что нейронные сети чрезмерно подходят из-за «коадаптации» между нейронами. Коадаптация происходит, когда два или более нейрона в сети начинают многократно обнаруживать одну и ту же функцию, что означает, что сеть не использует свою полную мощность эффективно. Это показывает, что он тратит вычислительные ресурсы, вычисляя активацию избыточных нейронов, которые все делают одно и то же.
Чтобы прервать коадаптацию, во время обучения в сеть вносится шум. Каждый выход из слоя случайным образом устанавливается равным нулю с некоторой вероятностью p. На рисунке показана разница между стандартной нейронной сетью и сетью после применения исключения.

5. Пакетная нормализация: это способ нормализации входных данных путем настройки и масштабирования активаций (подробнее Пакетная нормализация в нейронных сетях). Это необходимо, когда значения признаков находятся в разных диапазонах. Кроме того, исследователи Google заметили, что за счет нормализации входных данных обучение происходит быстрее (меньше итераций), а также вводится небольшая степень регуляризации.

Ссылки:

Https://www.quora.com/What-does-co-adaptation-of-neurons-in-a-Neural-network-mean

Dropout: простой способ предотвратить переоснащение нейронных сетей Нитиш Шривастава, Джеффри Хинтон, Алекс Крижевский, Илья Суцкевер, Руслан Салахутдинов, 2014.

Пакетная нормализация: ускорение глубокого обучения сети за счет уменьшения внутреннего ковариантного сдвига Сергея Иоффе и Кристиана Сегеди