1. Объяснение пакетной нормализации (arXiv)

Автор: Рэндалл Балестриеро, Ричард Г. Баранюк.

Аннотация: Критически важным, вездесущим и все же плохо изученным компонентом современных глубоких сетей (DN) является пакетная нормализация (BN), которая центрирует и нормализует карты признаков. На сегодняшний день достигнут лишь ограниченный прогресс в понимании того, почему BN повышает производительность обучения и логического вывода DN; работа была сосредоточена исключительно на том, чтобы показать, что BN сглаживает картину потерь DN. В этой статье мы изучаем BN теоретически с точки зрения аппроксимации функций; мы используем тот факт, что большинство современных DN представляют собой непрерывные кусочно-аффинные (CPA) сплайны, которые подгоняют предиктор к обучающим данным посредством аффинных отображений, заданных в разделе входного пространства (так называемые «линейные регионы»). {\em Мы демонстрируем, что BN — это метод обучения без учителя, который — независимо от весов DN или обучения на основе градиента — адаптирует геометрию сплайн-раздела DN в соответствии с данными.} BN обеспечивает «интеллектуальную инициализацию», которая повышает производительность. обучения DN, потому что он адаптирует даже DN, инициализированный со случайными весами, для выравнивания его сплайн-раздела с данными. Мы также показываем, что изменение статистики BN между мини-пакетами вносит случайное возмущение, подобное выпадению, в границы раздела и, следовательно, в границу решения для задач классификации. Это возмущение для каждой мини-партии уменьшает переоснащение и улучшает обобщение за счет увеличения границы между обучающими выборками и границей решения.

2. Теоретическое понимание пакетной нормализации: автонастройка скорости регуляризации в зависимости от данных (arXiv)

Автор: Лакшми Аннамалай, Четан Сингх Тхакур.

Аннотация: Пакетная нормализация широко используется в глубоком обучении для нормализации промежуточных активаций. Глубокие сети страдают от заведомо повышенной сложности обучения, требующей тщательной инициализации весов, требующей более низкой скорости обучения и т. д. Эти проблемы были решены с помощью пакетной нормализации (\textbf{BN}) путем нормализации входных данных активаций до нулевого среднего и единичного стандарта. отклонение. Включение этой пакетной нормализации в процесс обучения значительно ускоряет процесс обучения очень глубоких сетей. Продолжается новая область исследований для изучения точного теоретического объяснения успеха \textbf{BN}. Большинство этих теоретических открытий пытаются объяснить преимущества \textbf{BN}, связывая их с его влиянием на оптимизацию, инвариантность весовой шкалы и регуляризацию. Несмотря на неоспоримый успех \textbf{BN} в ускорении обобщения, пробел в аналитической связи эффекта \textbf{BN} с параметром регуляризации все еще отсутствует. Эта статья направлена ​​на демонстрацию зависимой от данных автонастройки параметра регуляризации с помощью \textbf{BN} с аналитическими доказательствами. Мы представили \textbf{BN} как оптимизацию с ограничениями, наложенную на не-\textbf{BN} веса, с помощью которой мы демонстрируем автонастройку параметра регуляризации, зависящую от статистики данных. Мы также предоставили аналитическое доказательство его поведения при входном сценарии с шумом, которое показывает зависимость сигнала от шума параметра регуляризации. Мы также обосновали наше утверждение эмпирическими результатами эксперимента с набором данных MNIST.