Надежная классификация изображений с небольшим набором данных

Один из самых распространенных мифов об искусственном интеллекте состоит в том, что для получения достаточной точности требуется большой объем данных - и быстрое развитие аналитики больших данных, похоже, подтверждает эту интуицию. Это правда, что методы глубокого обучения требуют обучения модели на огромном количестве помеченных изображений. Однако при классификации изображений даже небольшая коллекция обучающих изображений может обеспечить приемлемую степень точности (90–100%) при использовании новых методов машинного обучения, которые либо используют ранее собранные данные для смежных областей, либо полностью изменяют процесс классификации, работая на сходство изображений.

Перекрестное использование знаний

Подобно способности человека применять знания, полученные в одной сфере, к связанным сферам, алгоритмы машинного обучения и глубокого обучения также могут использовать знания, полученные для одной задачи, только для решения смежных проблем.

Несмотря на то, что традиционно алгоритмы ML / DL предназначены для работы изолированно для решения конкретных задач, методы передачи знаний и адаптации предметной области нацелены на преодоление изолированной парадигмы обучения для разработки моделей, которые были бы ближе к человеческому способу обучения.

Передача обучения

Трансферное обучение - это метод, который обобщает знания, включая характеристики и веса, из ранее изученных задач и применяет их к новым, связанным задачам, для которых отсутствуют данные. Например, в компьютерном зрении некоторые низкоуровневые функции, такие как края, формы, углы и интенсивность, могут использоваться в нескольких задачах.

Чтобы понять, как это работает, мы можем использовать структуру, представленную в документе Обзор трансфертного обучения (Pan & Yang 2010), где они используют предметную область, задачу и предельные вероятности:

Область D состоит из двух компонентов: пространства признаков X и маргинального распределения вероятностей P (x), где x ∈ X. Как правило, если два домена разные, они могут иметь разные пространства признаков или разные предельные распределения вероятностей.

Точно так же задача T состоит из двух компонентов: пространства меток Y и прогнозирующей функции f (·), то есть отображения пространства признаков в пространство меток. С вероятностной точки зрения f (x) также можно записать как условное распределение P (y | x). На основе этих представлений передача знаний может быть определена следующим образом: с учетом исходной области Ds и учебной задачи Ts, целевой области Dt и учебной задачи Tt, переносное обучение направлено на улучшение обучения целевой прогнозной функции fT (·) в DT с использованием знаний в DS и TS, где DS ≠ DT или TS ≠ TT, T = { Y, f (·)}. (Pan & Yang 2010) В большинстве случаев предполагается, что существует ограниченное количество помеченных целевых примеров, которое экспоненциально меньше, чем количество доступных помеченных исходных примеров.

Чтобы объяснить, как трансфертное обучение можно использовать в реальной жизни, давайте рассмотрим одно конкретное приложение - обучение на основе моделирования. Имитация - это предпочтительный инструмент для сбора данных и обучения модели, а не для сбора данных в реальном мире. При обучении на моделировании и применении приобретенных знаний в реальном мире модель использует одни и те же пространства функций между исходным и целевым доменом (оба обычно полагаются на пиксели). Однако распределения предельной вероятности между симуляцией и реальностью различаются, поэтому объекты в моделировании и в источнике выглядят по-разному, хотя эта разница уменьшается по мере того, как моделирование становится более реалистичным.

Дополнительная литература

SJ Pan, Q Yang (2009). Обзор трансфертного обучения. IEEE Transactions по знаниям и инженерии данных 22 (10), 1345–1359 [PDF]

Адаптация домена

Обычно считается подполем передачи знаний, адаптация домена относится к методу борьбы с так называемой проблемой сдвига домена: поскольку распределение данных в целевом домене отличается от распределения данных в исходном домене и существует аналогичный разрыв между предельными вероятностями между исходным и целевым доменами, например P (Xs) ≠ P (Xt), необходимо разработать модели, которые могут справиться с с этим сдвигом.

Чтобы добиться успешной адаптации домена без учителя, нам необходимо охватить три основных аспекта:

извлечение признаков, не зависящее от предметной области: распределения признаков, извлеченных из обоих доменов, должны быть неразличимы, если судить по состязательной дискриминаторной сети;
доменная реконструкция: вложения должны декодироваться обратно в исходный и целевой домены;
Последовательность цикла: чтобы гарантировать, что сопоставления изучены правильно, мы должны иметь возможность вернуться к тому, с чего начали.

Самый простой подход к адаптации домена без учителя - это создание сети для извлечения функций, которые остаются неизменными во всех доменах, делая их неотличимыми для отдельной части сети, дискриминатора. Но в то же время эти функции должны быть репрезентативными для исходного домена, чтобы сеть могла классифицировать объекты. Поскольку этот подход является неконтролируемым, нам не нужно иметь никаких ярлыков для целевого домена, только для исходного домена и, во многих случаях, для синтетических данных.

В качестве альтернативы, адаптация домена может отображать распределение исходных данных в целевое распределение. Оба домена X и Y могут быть отображены в общий домен Z, где распределения выровнены. Это встраивание должно быть независимым от предметной области, поэтому мы хотим максимизировать сходство между распределениями встроенных исходных и целевых изображений.

Дополнительная литература

Мурез, Зак и Колури, Сохейл и Кригман, Дэвид и Рамамурти, Рави и Ким, Кённам. (2017). Преобразование изображения в изображение для адаптации предметной области. [PDF]

Пинейро, Педро Х. О. (2018). Неконтролируемая адаптация предметной области с обучением по подобию. Конференция IEEE / CVF по компьютерному зрению и распознаванию образов (2018): 8004–8013. [PDF]

Подходы, основанные на сходстве

Альтернативой прямой классификации входного изображения в любой из выходных классов является измерение сходства между изображениями путем изучения функции подобия.

Быстрое обучение

Быстрое обучение - это проблема категоризации объектов в основном в компьютерном зрении. В отличие от других алгоритмов на основе машинного обучения, обучение с использованием нескольких кадров направлено на изучение информации о категориях объектов из одного (так называемое однократное обучение) или нескольких обучающих изображений. В дополнение к входному изображению он также принимает эталонное изображение конкретного объекта в качестве входных данных и производит оценку сходства, обозначающую шансы того, что два входных изображения принадлежат одному и тому же объекту.

В своей простейшей форме однократный метод обучения вычисляет взвешенную по расстоянию комбинацию меток опорных наборов. Метрика расстояния может быть определена с помощью сиамской сети, которая использует две идентичные полностью связанные CNN с одинаковыми весами и принимает два разных изображения. Последние слои двух сетей затем передаются в функцию контрастных потерь, которая вычисляет сходство между двумя изображениями.

Первая сеть выводит кодировку / вектор запрашиваемого изображения, а вторая сеть, соответственно, - кодировку / вектор опорного изображения из набора данных. После этого две кодировки сравниваются, чтобы проверить, есть ли сходство между изображениями. Сети оптимизированы на основе потерь между их выходами с использованием тройных потерь или контрастных потерянных функций.

Триплетная функция потерь используется для расчета градиентов и представлена следующим образом:

где a представляет собой привязанное изображение (или контрольное изображение из набора данных), p представляет собой положительное изображение а n представляет собой негативное изображение. Мы знаем, что различие между a и p должно быть меньше, чем различие между a и n. Другая переменная, называемая маржей, добавляется в качестве гиперпараметра, чтобы определить, насколько далеко должны быть различия, т.е. если маржа = 0,2 и d (a, p) = 0,5, то d (a, n) должно быть по крайней мере равно 0,7.

Функция контрастных потерь имеет следующий вид:

где Dw - евклидово расстояние между выходами сестринских сиамских сетей. Математически евклидово расстояние представляется следующим образом:

где Gw - выход одной из сестринских сетей. X1 и X2 - пара входных данных.

Функции потерь вычисляют градиенты, которые используются для обновления весов и смещений сиамской сети. Потери будут меньше, если изображения похожи, и будут дальше друг от друга, если изображения не похожи.

Развитие этого подхода можно увидеть в методе Santoro et al. (2016) с использованием нейронной сети с расширенной памятью (MANN). В их модели нейронная сеть была расширена за счет модуля внешней памяти, так что модель была дифференцируемой и ее можно было обучать от начала до конца. Благодаря своей процедуре обучения они вынудили сеть изучить общие знания, тогда как быстрый доступ к памяти позволил быстро привязать эти общие знания к новым данным.

Дополнительная литература

Ли Фей-Фей, Роб Фергус и Пьетро Перона (2006). Однократное изучение категорий объектов. IEEE Transactions по анализу шаблонов и машинному интеллекту, 28 (4): 594–611. [PDF]

Кох, Грегори, Ричард Земель и Руслан Салахутдинов. Сиамские нейронные сети для одноразового распознавания изображений, 2015. [PDF]

Санторо, Адам, Бартунов, Сергей, Ботвиник, Мэтью, Виерстра, Даан и Лилликрап, Тимоти П. (2016). Одноразовое обучение с помощью нейронных сетей с расширенной памятью ». CoRR abs / 1605.06065. [PDF]

Надежная классификация изображений с небольшим набором данных

Перекрестное использование знаний

Передача обучения

Дополнительная литература

Адаптация домена

Дополнительная литература

Подходы, основанные на сходстве

Быстрое обучение

Дополнительная литература

Вопросы по теме