Обзор — Метаобучение для обобщения предметной области (AAAI 2018)

Больше сообщений о генерализации домена здесь.

Серия обзоров статей — обобщение предметной области
Эй, ребята, этот пост задуман как введение в серию обзоров статей по обобщению предметной области, в частности…medium.com

Источник: https://arxiv.org/pdf/1710.03463.pdf

Модель метаобучения для обобщения предметной области (MLDG) — это первая модель метаобучения DG, опубликованная вскоре после того, как статья MAML стала звездой в области компьютерного зрения. Как и MAML, MLDG предлагает градиентную, независимую от моделипроцедуру обучения, чтобы продвигать предметно-инвариантное изучение признаков с помощью стратегии обучения, чтобы учиться, с той разницей, что MAML стремится обеспечить >высокочувствительная инициализация модели с несколькими шагами, тогда как в DG мы предполагаем нулевое обучение для целевых доменов. В этом документе оценивается их процедура как в настройках Computer Vision, так и в обучении с подкреплением.

Интуиция

До MLDG большинство моделей DG либо выполняли обучение в нескольких областях (MDL), либо опирались на методы выравнивания предметной области. Наивный MDL уже обеспечивает надежную основу для задач DG, но очевидная проблема заключается в том, что количество параметров увеличивается по мере того, как мы объединяем больше обучающих доменов. С другой стороны, методы выравнивания предметной области включают созданную вручную метрику машинного обучения, такую как минимизация MMD (максимальное среднее несоответствие) между всеми исходными доменами, в связи с чем возникает вопрос: Может ли вместо назначения цели для нашей модели модели гибко учиться своей цели? MLDG стремится направлять модель для изучения функций, не зависящих от предметной области, путем имитации сдвига предметной области в каждой итерации обучения.

Метод

MLDG имеет дело с однородными проблемами DG, когда пространство меток исходного и целевого доменов идентично (т. е. модели не нужно запоминать новые метки в целевом домене, как в обучение за несколько выстрелов).

Мы определяем θ как набор обучаемых параметров, S как исходные домены и Tв качестве целевого(ых) домена(ов). Внутри S мы далее делим его на sv (мета-поезд) и v (мета-тест) домен. Затем процедура обучения для обучения с учителем выглядит следующим образом:

Как видно из псевдокода, на каждой итерации мы сначала вычисляем градиент, основываясь только на домене метапоезда sv, а затем вычисляем полуобновленные параметры для θ'перед расчетом потерь в отношении метатестового домена v. Наконец, обновите параметр, используя взвешенную сумму градиентов метаобучения и метатеста (β – это гиперпараметр, для которого в контролируемой настройке задано значение 1,0). Функции F и G представляют собой среднюю потерю перекрестной энтропии по образцам.

Обратите внимание, что единственное место, где мы обновляем параметр, находится в строке 9, метацели. Но работает ли эта «симуляция сдвига домена» на самом деле?

Поскольку F настраивается исключительно на основе домена метаобучения, указанную выше цель можно интерпретировать как «настроить так, чтобы после корректировки для одного домена производительность также была хорошей для другого домена». В оригинальной статье также есть интерпретация с использованием линейной аппроксимации, объясняющая, что потери будут уменьшаться симметрично (обновления в одном направлении) между F и сильный>G.

Процедура обучения для обучения с подкреплением аналогична обучению с учителем, только теперь наши образцы представляют собой траектории, собранные с применением политики 𝛑 на исходных доменах. Функции потерь F и G являются отрицательными функциями вознаграждения, как и в обычных настройках глубокого RL.

Результаты и обсуждение

Команда оценивает свои результаты по одному многодоменному тесту распознавания объектов PACS (фото, картины, комиксы, наброски) и двум тестам обучения с подкреплением (Cart Pole и Горный автомобиль). Здесь мы сосредоточим обсуждение только на PACS.

Этот документ и многие последующие документы DG следуют правилу «одного удерживаемого» для разделения доменов, когда мы берем 1 домен в качестве целевого, а оставшиеся ( в данном случае 3 домена) в качестве наших исходных доменов. Здесь Deep-all обозначает многодоменную модель обучения, а D-MTAE обозначает глубокий многозадачный (шумоподавляющий) автоэнкодер. Как мы видим, MLDG в среднем работает хорошо, но улучшение незначительно. Обратите внимание, что в строке sketch (самый большой сдвиг домена среди PACS) MLDG опережает результат Deep-all на твердые 5%, что, по-видимому, указывает на то, что при большой сдвиг домена, модель метаобучения лучше обобщает. Тем не менее, в строке photo эффективность MLDG была умеренной.

Учитывая, что это первая DG-модель в стиле MAML, я нахожу результат многообещающим, но недостаточно убедительным, чтобы лучше, чем MDL. В этой статье процедура MAML несколько наивно адаптируется к задачам DG, но, поскольку идеальная модель в стиле MAML гарантирует высокую чувствительность для тонкой настройки, а не заурядную точность , использование MAML с DG может потребовать дополнительных приемов для хорошей работы (и я полагаю, что в 2019 году статья Эпизодическое обучение для DG разрешит путаницу).

Мысль: допустимо ли расщепление одного набора данных для мета-обучения?

В большинстве методов DG, основанных на метаобучении, наборы данных разбиваются с использованием одного удерживаемого способа. Например, в коде MLDG одним из способов разделения набора данных PACS может быть домен P в качестве цели и домен A,C,S. в качестве источника, где домены A, C и S по очереди становятся метатестом. домен. Таким образом, примером итераций может быть (A, C → S), (A, S → C), (S, C → A).

Я нахожу этот тренировочный процесс несколько сомнительным (хотя могу ошибаться). Аналогичным образом, если мы посмотрим на метаобучение в настройках несколько выстрелов, метод обучения по умолчанию заключается в выборке некоторых изображений для наборов метаобучения и метатеста соответственно. БЕЗ замены. Однако в настройках DG, возможно, из-за отсутствия доменов в обучающем наборе, каждый исходный домен в свою очередь становится доменом метатеста. Фундаментальное отличие состоит в том, что если домены поочередно проходят метатест, модель может «заглянуть» в домен, который ей было сказано обобщить во время обучения (метатеста) после нескольких итераций. Разве это не противоречит цели метаобучения по разным дистрибутивам/доменам?

Это открытый вопрос, и, поскольку почти во всех документах Генерального директората принята эта постановка, мне неловко оспаривать ее. Но я также не могу не задаться вопросом, есть ли лучший способ применить метаобучение к DG?

Что читать дальше

MLDG открывает множество возможностей для мета-обучения проблемам DG. С 2018 года существуют методы на основе регуляризаторов, такие как MetaReg (обучение регуляризатора с использованием метаобучения), методы на основе функций, такие как Feature-Critic (назначение «функции оценка» для выходных данных метатеста в качестве вспомогательной потери в дополнение к обычной кросс-энтропийной потере) и Эпизодическое обучение (настройка модели, не зависящей от предметной области, с различными эпизодами экстракторов и классификаторов предметно-ориентированных признаков). )…и т.д. Мы рассмотрим вышеупомянутые 3 модели (и более) в следующих постах.

Удачного кодирования!