Челси Финн, Питер Аббил, Сергей Левин

Отчет Амбара Праджапати
(академическое задание)

Оригинал исследования доступен здесь



Люди хорошо учатся. Они быстро адаптируются к новым местам, осваивают новые навыки и языки. Можем ли мы придумать то же самое для машин?

В этой исследовательской статье предлагается алгоритм метаобучения, независимый от какой-либо модели, который может улучшить машинное обучение всего за несколько попыток.

Обучение обучению называется метаобучением.

Преимущества предлагаемого алгоритма MAML

Он может решать новые учебные задачи, используя лишь небольшое количество обучающих выборок
Он использует общий механизм и вычисления, применимые к множеству задач
Он хорошо работает с контролируемой классификацией с меньшим количеством параметров
Он легко применяется к регрессии и может ускорить обучение с подкреплением для вариативности задач
Применяется к различным типам моделей, например, к полносвязным и сверточным сетям
Применяется к различным областям, например к регрессии с несколькими выстрелами, классификации изображений, обучению с подкреплением

Методология

Быстрое обучение достигается, в первую очередь, изменением весов верхнего слоя в модели с прямой связью.

Начальные параметры модели обучаются с помощью — процедуры градиентного спуска для получения хорошей обобщенной производительности — с использованием

небольшое количество шагов градиента и
небольшой объем обучающих данных от новой задачи

Процесс обучения максимизирует чувствительность функций потерь новых задач по отношению к параметрам. Таким образом, когда чувствительность высока, небольшие локальные изменения параметров могут привести к значительному улучшению потери задачи.

Рассмотрим модель, обозначенную f, которая отображает наблюдения x в выходные данные a. Задача обучения T определяется как -

Для независимой и одинаково распределенной (IID) задачи обучения с учителем длина H = 1

Модель может генерировать выборки длины H, выбирая выход для каждого t.
Потеря

обеспечивает обратную связь для конкретной задачи в форме другой потери или функции стоимости

Тематическое представление

На приведенной ниже диаграмме представлено тематическое представление этой оптимизации.

Для заданного набора задач p(T) и выстрелов K модель обучает новую задачу Ti

Алгоритм MAML

Алгоритм независимого от модели метаобучения (MAML) приведен ниже.
Он вычисляет обратную связь/потери/стоимость LTi и корректирует ранее инициализированный θ

Алгоритм MAML для контролируемого обучения

Этот алгоритм можно изменить для адаптации к контролируемому обучению, как показано ниже.

Алгоритм MAML для обучения с подкреплением

Этот алгоритм можно изменить для адаптации к обучению с подкреплением, как показано ниже.

Заключение
В этом документе представлен подход к метаобучению (алгоритм MAML) с рядом преимуществ. Он прост и может сочетаться с любой моделью, использующей градиентное обучение, включая классификацию, регрессию и обучение с подкреплением.