Запоминание и глубокие нейронные сети

В области науки о данных и особенно в машинном обучении нередко задаются вопросом: Что происходит в скрытых слоях? когда думаешь о глубоких нейронных сетях. Эти сети могут показаться алгоритмами черного ящика, поскольку большая часть внутренних вычислений в настоящее время недостаточно изучена, а отсутствие понимания этого поведения может дорого обойтись, когда дело касается времени, оборудования и финансов, особенно в сфере больших данных. В Более пристальном взгляде на запоминание в глубоких сетях Арпит и др. изучить различия в моделировании реальных и случайных данных с помощью DNN, чтобы получить некоторое представление о том, как эти модели обнаруживают закономерности и какие факторы влияют на производительность модели.

Прежде чем мы продолжим, я составил короткий (и не исчерпывающий) список часто используемых терминов, имеющих отношение к исследованию и пониманию глубоких нейронных сетей:

Регуляризация - важное понятие во многих математических контекстах, регуляризация означает применение «штрафа» к функции для контроля чрезмерных колебаний.

Запоминание - по сути, переобучение, запоминание означает неспособность модели обобщать невидимые данные. Модель была чрезмерно структурирована, чтобы соответствовать данным, на которых она учится. Запоминание чаще происходит в более глубоких скрытых слоях DNN.

Емкость - «диапазон типов функций, которые может приблизить модель». Модель высокой емкости очень сложна и может быть подвержена переобучению, что связано с запоминанием «увиденных» данных. Модель с малой емкостью может иметь проблемы с обобщением очень сложных данных, но не обязательно хуже из-за вычислительной эффективности. Ключевым моментом здесь является баланс и понимание набора данных!

Эффективная емкость - производительность модели с учетом определенного алгоритма и определенного набора данных.

Противоречивый пример - точка данных, которая может быть «неправильно классифицирована», или точка, которую можно ошибочно принять за принадлежность к одной группе, хотя на самом деле она принадлежит другой.

А теперь давайте поближе познакомимся с глубокими нейронными сетями!

Данные

Хотя это может показаться интуитивно понятным, один из главных выводов исследования, подробно описанного в этой статье, заключается в том, что на способность модели к обобщениям в значительной степени влияют сами данные. Тренировочные данные сами по себе играют важную роль в определении степени запоминания. DNN могут соответствовать чисто случайной информации, поэтому возникает вопрос, происходит ли это также с реальными данными. В этом исследовании исследователи анализируют производительность нескольких моделей на реальных данных (MNIST и CIFAR-10) и реальных данных с различной степенью случайно генерируемого шума (от 20 до 80% реального набора данных).

Для анализа производительности модели использовались два основных показателя - чувствительность к потерям и коэффициент критической выборки (CSR). Возможности модели как влияние на эффективность проверки также исследуются, как и некоторые методы регуляризации.

Чувствительность к потерям

С технической точки зрения чувствительность к потерям можно объяснить как «величину производной градиента потерь по x». Другими словами, насколько изменение точки данных x влияет на изменение функции потерь? Цель градиентного спуска - минимизировать функцию потерь, то есть найти место на функции потерь, где ее изменение равно нулю. Высокая чувствительность к потерям означает, что изменение функции потерь сильно зависит от изменения x или что при изменении x шаги, предпринимаемые для минимизировать функцию потерь большие. Полученные здесь результаты показывают, что только части реальных данных имели высокую чувствительность к потерям, в то время как зашумленные данные были чрезвычайно чувствительны к изменениям x. Это говорит нам о том, что чем больше шума существует в наборе данных, тем больше вероятность, что модель предпримет большие шаги для минимизации потерь. Поскольку реальные данные чаще будут иметь различимые шаблоны, и эти шаблоны потребуют все меньших и меньших шагов, модель, вероятно, не запоминает их, как со случайными данными (или, по крайней мере, не так).

Критический коэффициент выборки

Это исследование определяет критическую выборку как подмножество данных определенной группы, где может быть кроссовер с другой группой, т. Е. Границу, отделяющую это подмножество одной группы от данных другой группы, гораздо труднее определить, и, следовательно, намного сложнее. труднее обобщить различия с помощью модели.

Чтобы идентифицировать критический образец, прямоугольник с радиусом размера r используется для определения плотности границ - представьте себе прямоугольник вокруг конкретной точки данных, принадлежащей группе A. Эта точка данных является критический образец, если в радиусе этого поля есть еще одна точка данных из другой группы. Это определяет сложность данных или то, насколько тесно связаны разные группы, и, исходя из этого, насколько легко они могут быть ошибочно приняты за принадлежность к неправильной группе. Эта точка зрения другой группы считается примером состязательности.

«Состязательные примеры первоначально относились к незаметно искаженным точкам данных, которые достоверно ошибочно классифицированы. (Miyato et al., 2015) вместо этого определяют виртуальные состязательные примеры через изменения в прогнозном распределении »(Arpit et al. (2017)) - это расширяет определение CSR на немаркированные данные - или данные, группы которых не были определены до моделирования. .

Чем больше критических выборок существует, тем сложнее пространство гипотез и выше CSR, который представляет собой отношение критических подмножеств выборок ко всему набору данных. Это исследование показывает, что критические отношения выборки увеличиваются для моделей с более высоким уровнем шума - что эти модели изучают более сложные шаблоны с зашумленными данными, и что точность проверки (точность предсказания неизвестной информации) обычно ниже при увеличении уровня шума. Следуя этой логике, это говорит о том, что эти модели чувствительны к случайным данным, потому что они должны запоминать определенные точки, а не обобщать их из-за возможности неправильной классификации.

Вместимость

Похоже, что модели с более высокой емкостью способны изучать шум без ущерба для изучения реальных закономерностей набора данных, но в этой способности нет необходимости, если данные более чистые, а выбросы и шум удалены. Это подчеркивает важность понимания данных, а также использования соответствующих методов очистки и предварительной обработки для минимизации вычислительных затрат и уменьшения ненужной сложности.

Значительно сокращается «время сходимости» данных, которые содержат больше шума, или время, необходимое модели, чтобы достичь места, где дальнейшее обучение не приведет к улучшению. Это следует из-за чувствительности к потерям из-за зашумленных данных. То есть есть еще кое-что, что можно «изучить» со случайной информацией, и поэтому модель должна использовать стратегии переобучения, увеличивая глубину или количество узлов, чтобы улавливать шум, и делать большие шаги, чтобы минимизировать функцию потерь. На приведенном ниже графике показано, что время, необходимое для сходимости, значительно выше для данных с увеличением доли шума, а также в целом для больших наборов данных.

Регуляризация

Регуляризация - это концепция, введенная на раннем этапе во многих исследованиях в области науки о данных, то есть для уменьшения этой флуктуации вводится штраф за сильно колеблющиеся модели. Это важный метод уменьшения запоминания, как показано на этом графике.

Низкая производительность на случайных данных в сочетании с высокой производительностью на реальных данных является индикатором снижения запоминания, поскольку модель не способна обобщать случайный шум - регуляризация отсева кажется наиболее эффективной, за ней следует состязательное обучение или обучение модели на вводить в заблуждение.

Резюме

Понимание и расширение основ градиентного спуска и регуляризации поможет специалистам по обработке данных описывать более неоднозначное поведение глубоких нейронных сетей. Архитектура модели, оптимизация и сами данные играют особенно важную роль в распаковке некоторых из этих поведений, а более жесткий контроль над сложными моделями может снизить вычислительные затраты и помочь ученым получить более четкую дорожную карту для моделирования больших наборов данных.

Ссылки:

Deep Nets не учатся через запоминание, Крюгер и др., 2017 г. https://openreview.net/pdf?id=rJv6ZgHYg

О геометрии обобщения и запоминания в глубоких нейронных сетях, Стивенсон и др., 2021 г.
https://openreview.net/forum?id=V8jrrnwGbuc

Http://www.cs.cornell.edu/courses/cs4787/2019sp/notes/lecture13.pdf