Немногочисленное обучение (FSL) - это область машинного обучения, которая направлена ​​на обучение моделей в сценариях, где очень мало примеров доступно для наблюдения. Используя предыдущие знания, FSL может осваивать новые задачи на ограниченном количестве примеров. Эта серия статей представляет собой введение в различные подходы к FSL и предназначена для энтузиастов машинного обучения от новичка до среднего уровня. Это вторая часть серии статей, в которой рассматриваются методы достижения FSL. Часть 1 посвящена общему введению в тему.

Часть 1 доступна в разделе Обучение модели машинного обучения на нескольких примерах: обучение по нескольку шагов - Часть 1.

Схема, часть 2:

  1. Способы достижения быстрого обучения
    - Подходы на основе данных
    - Подходы на основе моделей
    - Подходы на основе алгоритмов
  2. Заключение и ссылки

Способы достижения быстрого обучения

Как упоминалось в Части 1 этой серии, FSL использует предыдущие знания, чтобы компенсировать небольшой набор обучающих данных. Предыдущие знания можно использовать тремя способами для достижения быстрого обучения.

  1. Данные - Увеличьте объем данных, используя предварительные знания (например, Увеличение данных).
  2. Модель - Уменьшите размер области гипотез, используя предварительные знания.
  3. Алгоритм - измените поиск лучшей гипотезы в заданном пространстве гипотез, используя предварительные знания.

Прежде чем углубляться в вышеупомянутые способы достижения FSL, давайте рассмотрим некоторые математические аспекты, связанные с ML. Эта часть предназначена только для тех, кто интересуется математикой, лежащей в основе машинного обучения. Хотя вы можете пропустить эту часть (достаточно прочитать выделенную часть), это поможет понять части, о которых будет рассказано в этой статье.



Ожидаемый риск против минимизации эмпирического риска:

Учитывая гипотезу h, мы хотим минимизировать ее ожидаемый риск R, который представляет собой убыток, измеренный относительно совместное правдивое распределение вероятностей входа x и выхода y, p (x, y). Конкретно,

Поскольку p (x, y) неизвестно, эмпирический риск (который представляет собой среднее значение потерь выборки по обучающей выборке I samples) обычно используется в качестве заместителя для R (h), что приводит к минимизации эмпирического риска.

А теперь давайте разберемся еще с несколькими терминами.

Пусть пространство гипотез - H. Поскольку ĥ неизвестно, алгоритмы пытаются аппроксимировать его некоторым h ∈ H. h * является наилучшим приближением в H, но не может быть найден. hI - лучшая гипотеза в H, полученная путем минимизации эмпирического риска.

Проще говоря, h * - это оптимальная гипотеза (которая получается путем минимизации ожидаемого риска), которую невозможно найти. Итак, мы стремимся найти hI, которое является приближением, полученным путем минимизации эмпирического риска.

Используя эти термины, мы можем акцентировать внимание на проблеме, обсуждаемой в Части 1, о плохом обобщении в случае небольшого набора обучающих данных.

На левом рисунке показано пространство гипотез при большом наборе данных. Имеется достаточно обучающих данных с контролируемой информацией (т. Е. I большой), средство минимизации эмпирического риска hI может обеспечить хорошее приближение R (hI) в максимально возможной степени R (h *) ​​. Другими словами, гипотеза очень близко сходится к оптимальной гипотезе. (т.е. hI близко к h *). С другой стороны, в случае небольшого набора данных эмпирический риск RI (h) может быть далек от того, чтобы быть хорошим приближением ожидаемого риска hI далеко от h *).

На рисунке ниже показано, как различные методы FSL решают задачу обучения, состоящую из нескольких кадров.

Далее мы попытаемся разобраться в каждом из графиков на приведенном выше рисунке.

Данные -

Эти методы используют предварительные знания для увеличения набора обучающих данных (т. Е. Увеличения количества примеров в наборе обучающих данных). Предварительные знания используются для пополнения набора данных. Затем к этому расширенному набору данных можно применить стандартный алгоритм машинного обучения. Чтобы проиллюстрировать это, давайте рассмотрим изображения, увеличение данных может выполняться на изображениях путем отражения, поворота, обрезки, зеркального отображения, масштабирования и различных других преобразований. Эти преобразования могут вводить различные виды инвариантности для модели.

Более подробную информацию об увеличении данных в изображениях можно найти в разделе Увеличение данных: увеличьте набор данных изображений с помощью нескольких строк Python.

Другой подход, который попадает в эту категорию, основан на расширении набора обучающих данных примерами из других наборов данных. По сути, модель обучается с использованием доступных обучающих данных (эта модель будет очень плохой из-за наличия небольшого обучающего набора) и используется для маркировки примеров других наборов данных (эта маркировка называется «псевдо-маркировка »). Затем эти примеры с псевдометками добавляются для расширения фактического набора обучающих данных. Псевдо-метки могут быть неточными, но помогают решить проблему малого размера данных.

Здесь мы расширяем обучающий набор, выполняя некоторые преобразования на примерах или добавляя данные из других наборов данных, а затем используя стандартные алгоритмы машинного обучения, чтобы найти оптимальную гипотезу.

Поскольку увеличение данных зависит от правил (созданных вручную или автоматически изученных) для расширения набора данных, оно страдает несколькими проблемами. Эти правила требуют опыта в предметной области, и их может быть сложно создать. Кроме того, невозможно перечислить всю возможную инвариантность. Более того, эти правила могут быть специфичными для набора данных и могут не работать для других наборов данных.

Наконец, как вы могли заметить, этот подход на самом деле не решает реальной проблемы обучения за несколько шагов, поскольку он просто улучшает набор данных и полагается на стандартные алгоритмы машинного обучения для обобщения.

Модель -

Эти методы используют предварительные знания, чтобы ограничить сложность H, что приводит к гораздо меньшему пространству гипотез. Как показано на рисунке, серая область не рассматривается для оптимизации, поскольку известно, что в этой области вряд ли будет содержаться оптимальное значение h * согласно предшествующим знаниям. Для этого меньшего H данных обучения достаточно, чтобы получить надежный hI, и риск переобучения снижается.

Здесь мы сокращаем пространство гипотез, удаляя неоптимальные части пространства гипотез из поиска с использованием априорных знаний.

С точки зрения того, какие предварительные знания используются для ограничения пространства гипотез, методы можно разделить на четыре типа.

Многозадачное обучение:

Этот подход учит совместно решать несколько связанных задач, поэтому параметры задачи (например, пространство гипотез H) ограничиваются другими задачами.

Рассмотрим настройку ниже:

Есть задачи, относящиеся к «C», T1, T2,…, TC.

В некоторых очень мало примеров (назовем их целевые задачи), а в других - большое количество образцов (исходные задачи).

Многозадачное обучение учится на обучающем наборе задач «C», чтобы получить параметры ϴc для каждой задачи Tc.

Как упоминалось ранее, задачи изучаются совместно, параметр ϴc taks Tc ограничен другими задачами.

В зависимости от способа ограничения параметров ϴc методы можно разделить на две категории:

  1. Совместное использование параметров. Некоторые параметры используются непосредственно для разных задач. В большинстве случаев первые несколько компонентов являются общими для разных задач, а последний компонент зависит от задачи. Например, рассмотрим три задачи: первая предсказывает присутствие автомобиля на изображении, вторая предсказывает присутствие животного, а третья предсказывает присутствие человека. Модель имеет несколько общих слоев, которые фиксируют основные характеристики изображения. За этими общими слоями следуют специфические для задач уровни, которые изучают параметры для своих соответствующих задач.
    Эти общие параметры можно узнать из исходных задач (задач с большим количеством обучающих данных). Для целевой задачи (для которой нам нужно выполнить FSL) необходимо изучить только параметры, специфичные для задачи, а изученные общие параметры можно использовать напрямую. Следовательно, пространство гипотез ограничено с использованием априорных знаний (т. Е. Обучающих данных связанных задач).

Здесь мы ограничиваем пространство гипотез, разрешая совместное использование параметров между задачами.

2. Привязка параметров. При таком подходе параметры различных задач (ϴc) должны быть похожими, в отличие от совместного использования параметров, при котором параметры используются напрямую. Один из способов добиться этого - упорядочить параметры, то есть заставить параметры различных задач быть достаточно близкими. Например, предположим, что у вас есть модель, которая обучена в Задаче 1 (исходная задача), теперь мы будем использовать ту же модель и допускать минимальные изменения параметров при обучении ее для задачи с несколькими выстрелами. Таким образом мы ограничиваем пространство гипотез и достигаем FSL.

Здесь мы ограничиваем пространство гипотез, минимизируя изменения в изученных параметрах.

Этот подход имеет ограничение, заключающееся в том, что требуется совместное обучение, т. Е. Когда необходимо изучить новую задачу, состоящую из нескольких кадров, необходимо заново обучить всю многозадачную модель, что может быть дорогостоящим и медленным.

Встраивание обучения:

Этот подход включает каждый образец в пространство меньшей размерности, так что похожие примеры расположены близко друг к другу, а разные примеры находятся далеко друг от друга. В таком пространстве требуется меньшее пространство для гипотез, поскольку образцы из разных классов хорошо разделены. Следовательно, пространство гипотез ограничено из-за более низкой размерности пространства вложения. Это означает, что теперь требуется меньше выборок для аппроксимации оптимальной функции гипотезы (идеально подходит для FSL). Функция встраивания извлекается из предшествующих знаний и может дополнительно использовать информацию о конкретной задаче из обучающих данных задачи FSL. Существуют различные подходы, основанные на этом методе, например, прототипные сети, согласованные сети, сети отношений и т. Д.

Компоненты этого метода:

  • функция встраивания g, которая отображает обучающий пример в пространство Z меньшей размерности.
  • функция встраивания f, которая отображает тестовый пример в пространство Z меньшей размерности.
  • функция подобия s, которая обнаруживает сходство между встраиванием обучающих и тестовых примеров. Тестовый пример назначается классу, наиболее похожему на него в области встраивания.

Эти три функции изучаются с использованием предварительных знаний (то есть данных других задач, где имеется достаточный контроль) и используются непосредственно в задаче «Несколько выстрелов» (т. Е. Без повторного обучения в задаче «Несколько выстрелов») в большинстве методов.

Примечание. В некоторых методах используются одни и те же функции «g» и «f».

Здесь мы уменьшаем размерность данных, встраивая их в более низкоразмерное пространство, где образцы разных классов хорошо разделены. Из-за пространства меньшей размерности гипотетическое пространство ограничено.

Этот подход требует, чтобы задача из нескольких кадров и другие задачи были хорошо связаны. Более подробную информацию о встраиваемых методах обучения можно найти здесь, в этой статье.

Обучение с помощью внешней памяти:

Этот подход извлекает знания из набора обучающих данных и сохраняет их во внешней памяти в виде пар ключ-значение. Пример встроен с использованием функции встраивания «f» для формирования ключа для этого примера. Затем каждый новый образец в тестовом наборе представлен средневзвешенным значением содержимого, извлеченного из памяти (веса основаны на сходстве внедрения тестового примера с ключами в памяти). Это ограничивает представление новой выборки содержимым в памяти и, таким образом, существенно уменьшает размер области гипотез H.

Данные из обучающего набора сначала вставляются с помощью функции ‘f’, а затем сохраняются в памяти в формате «ключ-значение». Во время тестирования образец сначала внедряется с помощью ‘f’, а затем на основе функции подобия ‘S’ выбираются наиболее похожие ключи. Значения, соответствующие выбранным ключам, извлекаются и объединяются, чтобы сформировать представление тестовой выборки. Затем он передается классификатору (просто функции softmax), который делает предсказание класса. Этот подход использует дополнительное пространство памяти.

Алгоритм -

Эта стратегия ищет в пространстве гипотез H параметр θ наилучшей гипотезы h *. Методы в этом разделе используют предварительные знания, чтобы повлиять на получение параметров. Предварительные знания изменяют стратегию поиска, обеспечивая хорошую инициализацию (серый треугольник на рисунке ниже) или руководящие этапами поиска. Следовательно, уменьшая усилия по поиску в H.

Этого можно добиться тремя основными способами:

  1. Уточнение существующих параметров - исходные параметры (ϴo), полученные из других задач (эти параметры служат в качестве предварительных знаний), уточняются с использованием обучающих данных задачи с несколькими выстрелами.
  2. Уточнение параметров метаобучения - параметры инициализации (ϴo) - это метаобучение из набора задач (т. е. эти метаобученные параметры служат в качестве предварительных знаний), которые извлекаются из того же распределения задач, что и задача с несколькими выстрелами, а затем уточняется с использованием обучающих данных задачи с несколькими выстрелами
  3. Изучение оптимизатора. Он изучает метаученика как оптимизатора, который выводит шаги поиска для каждого ученика напрямую, например, изменение направления поиска или размера шага.

Заключение и ссылки:

Эта серия статей посвящена обучению по принципу несколько выстрелов, которое является относительно менее востребованной областью машинного обучения. Обсужден краткий обзор различных подходов с указанием их плюсов и минусов. Если вы намерены более подробно изучить упомянутые здесь алгоритмы, вы можете посетить эту ссылку.

Ссылки:

  1. Обобщение на нескольких примерах: обзор «Быстрое обучение».
  2. Успехи в обучении по частям: экскурсия.

Получите доступ к экспертному обзору - Подпишитесь на DDI Intel