Краткий обзор методов неявной аугментации данных и будущих направлений исследований

Расширение данных — это популярный метод, используемый для увеличения обобщаемости модели, возможно, с переоснащением. Путем создания дополнительных данных для обучения и представления модели различным версиям данных в одном и том же классе процесс обучения становится более надежным и, таким образом, с большей вероятностью обобщает полученную модель на тестовый набор. Недавно было показано, что неявное увеличение данных, которое косвенно генерирует выборки из скрытого пространства, демонстрирует хорошую производительность по сравнению с явным увеличением данных, которое напрямую преобразует входные данные. В этой статье мы выделяем основные направления исследований в области неявной аугментации данных и предлагаем несколько направлений исследований в этой области.

Введение

Разрыв обобщения, который измеряет разницу в производительности между обучающей выборкой и тестовой выборкой, в значительной степени возникает из-за их расхождений в распределении. Когда все варианты данных из основного процесса генерации данных доступны в обучающем наборе, даже простая модель, такая как k-ближайший сосед, будет иметь почти идеальные характеристики обобщения в тестовом наборе (Cover & Hart, 1967). Однако в практических приложениях обычно наблюдается определенный уровень разницы в распределении между обучающими и тестовыми наборами. В качестве непосредственного воздействия такой разницы в распределении модель, которая хорошо работает в обучающем наборе, может не обязательно обобщаться на тестовый набор, если она не регуляризована должным образом. Кроме того, нейронные сети часто чувствительны к шумам во входных данных (Tang & Eliassmith, 2010), что требует свойства инвариантности за счет увеличения данных.

Обзор литературы

Увеличение данных — это широко используемый метод регуляризации с точки зрения данных по сравнению с другими компонентами, такими как архитектура модели, функция потерь или алгоритм оптимизации всего процесса обучения модели. Он направлен на увеличение разнообразия доступных обучающих данных путем создания искусственных выборок посредством случайных, но реалистичных преобразований существующих обучающих данных. Явное увеличение данных напрямую преобразует существующие данные для получения новых выборок с помощью таких методов, как вращение и зеркальное отображение в случае данных изображения. См. (Shorten & Khoshgoftaar, 2019) полный обзор распространенных методов явного увеличения данных изображения.

Хотя процедура проста, прямое применение случайных преобразований может не дать полезных данных, поскольку процесс генерации не контролируется и не нацелен на текущую задачу моделирования. Чтобы облегчить эту проблему, (Zhang et al., 2017) предложили смешанный подход для создания выборок на основе выпуклых комбинаций обучающих функций и их меток. Действительно, явная интерполяция промежуточных выборок, пусть и линейная, может генерировать более полезные обучающие выборки по сравнению со случайной генерацией, учитывая приличное сходство между обучающими и тестовыми наборами. Если тестовый набор сильно отличается от обучающего набора, необходимо создать еще более сложные, состязательные образцы, используя некоторую форму расстояния между исходными и сгенерированными образцами. Например, искусственные образцы, наиболее удаленные от существующих образцов, но все же относящиеся к тому же классу целевых меток, являются экстремальными образцами, потенциально полезными для поддержки обобщения на совершенно другой набор тестов, как показано в работе (Volpi et al. , 2018).

Увеличение данных также может быть достигнуто без непосредственной настройки входных данных. В вариационном автоэнкодере (Kingma & Welling, 2013) входные данные сначала кодируются в скрытое пространство, которое затем управляет генерацией новых данных, вводя случайный шум в скрытые переменные состояния. Путем проецирования исходного пространства признаков в компактное и глубоко скрытое пространство результирующие признаки часто линеаризуются и распутываются, что делает процессы генерации на основе выборки или интерполяции более значимыми для практического использования (Bengio, Yoshua, et al., 2013). Например, (Wang et al., 2019) интерполировали новые выборки в скрытом пространстве по измерению с максимальной внутриклассовой вариацией, что приводило к семантически значимым преобразованиям при проецировании обратно в исходное входное пространство. Интересным свойством, возникающим в результате такой целенаправленной выпуклой интерполяции, выполняемой в скрытом пространстве в нейронной сети типа автоэнкодера, является эквивалентность надежной функции потерь. Такая устойчивость обеспечивается за счет давления на норму сетевых весов на уровне вывода декодирования посредством штрафного члена, добавляемого к функции потерь (Bishop, 1995a). Это свойство позволяет эффективно обучать, переформулируя функцию потерь, но при этом внося неявный эффект регуляризации данных.

Возможные направления исследований

Явное увеличение данных может привести к значительным затратам на обучение как при создании, так и при обучении с искусственными образцами. Для сравнения, неявное увеличение данных может обеспечить аналогичный или даже лучший эффект регуляризации за счет небольшой модификации функции потерь без слишком больших дополнительных затрат на обучение. Далее мы представляем несколько потенциальных направлений исследований в этой захватывающей области.

Данные. Расширение данных в основном направлено на создание дополнительных выборок различных вариаций, которые аппроксимируют распределение данных в тестовом наборе. Вместо явной настройки входных данных работа с глубоким скрытым пространством после операции кодирования кажется более перспективной из-за эффекта распутывания признаков, что приводит к более линеаризованному и разделяемому пространству признаков. Что касается выборки точек-кандидатов в скрытом пространстве, мы наблюдаем два общих потока. Один поток фокусируется на интерполяции между наблюдаемыми точками, возможно, по измерению с максимальной дисперсией для улучшения объяснимости, как показано (Wang et al., 2019). Другой поток сосредоточен на контролируемой экстраполяции и искажении наблюдаемых выборок для создания «жестких» враждебных выборок в скрытом пространстве. Отметим аналогичный подход по второму потоку, использованный в (Volpi et al., 2018), хотя и явно на входных данных.

Архитектура сети. Архитектура модели определяет поток информации от входных данных к выходному прогнозу. Вместо того, чтобы генерировать разные версии обучающих данных, мы теперь подвергаем разные версии сетевой архитектуры одним и тем же обучающим данным. Случайные шумы, введенные в архитектуру сети, такие как отсев (Srivastava et al., 2014) и его варианты, предотвращают чрезмерную зависимость от определенной части сети, делая модель более надежной и менее чувствительной к шумам в данных. Однако эффект неявной регуляризации можно использовать в дальнейшем по принципу «многие ко многим», одновременно вводя несколько версий данных и архитектуры и расставляя приоритеты по измерениям с высокой дисперсией.

Функция потерь. Несколько хороших свойств могут быть введены путем правильной регуляризации коэффициентов модели во время оценки. Например, было показано, что штраф на основе нормы, такой как Лассо, усиливает процесс оценки, неявно вводя случайные возмущения в пространстве признаков (Xu et al., 2010), в то время как штраф на основе ковариации может служить в качестве метода неявного увеличения данных, как показано в (Ванг и др., 2019). Таким образом, интересно изучить влияние других форм регуляризаторов на функцию потерь. Кроме того, корректировка коэффициентов чаще всего мгновенная и одномоментная, что не гарантирует ее оптимальности в долгосрочной перспективе. Многоступенчатое штрафование коэффициентов кажется многообещающим, уравновешивая компромиссы между краткосрочными и долгосрочными эффектами, как в процессе обучения агента обучения с подкреплением.

Алгоритм оптимизации. Показано, что стохастический градиентный спуск, наиболее распространенный алгоритм, используемый при обучении нейронных сетей, служит неявным регуляризатором путем декорреляции ближайших обновлений (Дэниел А. Робертс, 2018). Это означает, что для одних и тех же входных данных модель с большей вероятностью будет обобщаться при обучении на каждом образце по отдельности, чем на пакете образцов за итерацию. Другие методы, такие как инициализация с малым весом и высокая начальная скорость обучения, также способны неявно упорядочить модель. Эти подходы в основном сосредоточены на том, как входные данные взаимодействуют с весами и представляются им для постоянного обновления. На этом фронте мы ожидаем более инновационных исследований таких механизмов взаимодействия между входными данными и весами. Например, относительный вклад каждой точки входных данных в обновление веса может быть интерполирован для создания дополнительных поддельных обновлений, что соответствует созданию большего количества обучающих выборок. Кроме того, график обновления веса может также следовать многоступенчатой ​​схеме просмотра вперед, основанной на определенных критериях обобщения.

Заключение

В этой статье мы обобщили основные обновления исследований в области неявного увеличения данных и представили несколько направлений будущих исследований, включая данные, сетевую архитектуру, функцию потерь и алгоритм оптимизации. Поскольку это важная тема, которая объединяет несколько областей, мы надеемся, что наша работа вызовет больший интерес в исследовательском сообществе и внесет свой вклад в более широкую область обобщаемости моделей.

Ссылки

Кавер, Т. и Харт, П. Классификация шаблонов ближайших соседей. IEEE Transactions on Information Theory, 13 (1): 21–27, 1967.

Бишоп, CM (1995a). Нейронные сети для распознавания образов. Издательство Оксфордского университета. (ˆ1, 5, 7, 9, 23)

Тан, Ичуань и Элиасмит, Крис. (2010). Глубокие сети для надежного визуального распознавания. ICML 2010 — Материалы 27-й Международной конференции по машинному обучению. 1055–1062 гг.

Шортен С., Хошгофтаар Т.М. Опрос по увеличению данных изображений для глубокого обучения. J Большие данные 6, 60 (2019). https://doi.org/10.1186/s40537-019-0197-0

Чжан, Хонги и Сиссе, Мустафа и Дофин, Янн и Лопес-Пас, Дэвид. (2017). путаница: за пределами минимизации эмпирического риска.

Вольпи, Риккардо и Намкун, Хонсок и Сенер, Озан и Дучи, Джон и Мурино, Витторио и Саварезе, Сильвио. (2018). Обобщение на невидимые домены с помощью состязательного увеличения данных.

Кингма, Дидерик и Веллинг, Макс. (2013). Автокодирование вариационного Байеса. ICLR.

Бенжио, Йошуа и др. «Лучшее микширование с помощью глубоких представлений». МЦМЛ (2013).

Ван, Юлинь и Пан, Сюран и Сун, Шиджи и Чжан, Хун и Ву, Ченг и Хуан, Гао. (2019). Неявное семантическое увеличение данных для глубоких сетей.

Сривастава, Нитиш и Хинтон, Джеффри и Крижевский, Алекс и Суцкевер, Илья и Салахутдинов, Руслан. (2014). Dropout: простой способ предотвратить переобучение нейронных сетей. Журнал исследований машинного обучения. 15. 1929–1958 гг.

Сюй, Хуан и Караманис, Константин и Маннор, Ши. (2010). Надежная регрессия и лассо. Теория информации, транзакции IEEE. 56. 3561–3574. 10.1109/ТИТ.2010.2048503.

Дэниел А. Робертс (2018). SGD неявно упорядочивает ошибку обобщения. Нейрипс (2018).