MixMatch: целостный подход к обучению без учителя

Это сообщение в блоге представляет собой обзор следующей статьи: MixMatch: целостный подход к полу-контролируемому обучению.

Используя большие коллекции помеченных данных, глубокие нейронные сети могут достичь производительности человеческого уровня. Однако на практике создание больших наборов данных с полными метками может быть утомительным, подверженным ошибкам и дорогостоящим, особенно в медицинских областях, где требуются экспертные знания.
Мы можем избавиться от необходимости в метках в случае обучения модели с небольшим полностью помеченным набором данных и большим немаркированным набором данных. Это называется полу-контролируемым обучением.

Обзор полу-контролируемого обучения (SSL)

Традиционно в машинном обучении было два принципиально разных типа задач [1]. Обучение без учителя, при котором обучается модель без доступных данных для обучения, и Обучение с учителем, при котором обучается модель с полностью размеченным набором данных. Полу-контролируемое обучение - это подход между неконтролируемым и контролируемым обучением, представленный на рисунке 1:

Общая цель любого подхода к полу-контролируемому обучению - использовать немаркированные данные в качестве регуляризатора, чтобы повысить успеваемость учащегося. Чтобы любой подход SSL работал, то есть использовал немаркированные данные, необходимо соблюдать определенные предположения.

Полу-контролируемые предположения

Приведенные ниже допущения позволяют сделать обобщение от конечного помеченного набора данных до невидимых тестовых данных:

Предположение о гладкости: если две точки 𝑥1, 𝑥2 в области с высокой плотностью расположены близко, то должны быть соответствующие выходы 𝑦1, 𝑦2 [1].
Допущение кластера: если точки находятся в одном кластере, они, скорее всего, принадлежат к одному классу [1]. Это эквивалентно тому, что граница принятия решения должна лежать в области с низкой плотностью.
Допущение многообразия: данные лежат в многообразии низкой размерности, чтобы избежать проклятия размерности.

Большинство подходов SSL пытаются реализовать одно из вышеперечисленных предположений, например регуляризацию согласованности и минимизацию энтропии:

Регуляризация согласованности использует увеличение данных в качестве метода регуляризации, при котором каждая немаркированная точка данных должна классифицироваться так же, как и ее увеличение.
Минимизация энтропии - это средство реализации предположения Кластер. Энтропия - это мера перекрытия классов [8]. По мере уменьшения перекрытия классов плотность точек данных становится ниже на границе принятия решения.

Последние современные методы в SSL: Π-Model [4], Mean Teacher [7], Virtual Adversarial Training (VAT) [5] и Pseudo-Label [6] лучше обобщать невидимые данные, используя либо один из вышеупомянутых подходов, либо традиционную регуляризацию в срок их потерь.

MixMatch - это новый метод SSL, который сравнивается с другими упомянутыми методами и объединяет эти доминирующие подходы: регуляризация согласованности, минимизация энтропии и традиционная регуляризация, , настроив таргетинг на все их свойства одновременно. Таким образом MixMatch достигает самых современных результатов по всем четырем стандартным наборам данных изображений, а именно: CIFAR-10 и CIFAR-100, SVHN и STL-10.
Общая идея MixMatch - это угадывать низкоэнтропийные метки для расширенных немаркированных данных и применять дальнейшую регуляризацию с помощью MixUp как для помеченных, так и для немаркированных данных.

Методология

MixMatch использует каждый из трех подходов по-разному:

Регуляризация согласованности - путем введения увеличения данных как для помеченных, так и для немаркированных данных.
Минимизация энтропии - за счет использования угадывания меток и повышения резкости в немаркированных данных.
Традиционная регуляризация - MixUp как современный регуляризатор, который вводит линейную связь между точками данных.

Теперь мы подробно объясним эти способы использования, начиная с Data Augmentation.

Увеличение данных

Увеличение данных - широко используемый метод, который использует регуляризацию согласованности, например, в случае Π-Model [4] и Mean Teacher [7] . MixMatch использует стандартное увеличение данных для изображений, такое как случайное горизонтальное переворачивание, обрезка и поворот.
В MixMatch расширяются как маркированные, так и немаркированные данные , однако , K дополнения выполняются для каждой немаркированной точки данных:

Расширения K, выполненные для всех немаркированных данных, используются на этапе Подбор метки, который описывается в следующей части.

Label Guessing

На этом этапе метка «предположение» 𝑞¯𝑏 создается для каждых немаркированных данных 𝑢𝑏 путем усреднения прогнозов модели для K увеличений 𝑢𝑏, как показано ниже:

После вычисления повышения резкости для ¯𝑏 мы получаем окончательную метку для немаркированной точки данных.

Заточка

В MixMatch Повышение резкости применяется к предполагаемой метке 𝑞¯ с помощью следующего уравнения:

𝑝 в нашем случае - это среднее значение прогнозов по K дополнениям 𝑞¯𝑏 ; 𝑝 = 𝑞¯𝑏
𝑇 - гиперпараметр
𝐿 обозначает количество классов

Из рис.2 мы видим, что когда T приближается к 0, выходные данные от 𝑆ℎ𝑎𝑟𝑝𝑒𝑛 (𝑝, 𝑇) будут приближаться к горячему распределению кодирования.
MixMatch по сравнению с другими подходами, например [5], не добавляет член энтропии к функции потерь для достижения минимизации энтропии, он просто использует 𝑆ℎ𝑎𝑟𝑝𝑒𝑛 (𝑝, 𝑇). В результате это побуждает модель выдавать более надежные прогнозы, перемещая границу принятия решения из данных.

На рис. 3 представлен отличный обзор процесса подбора этикеток в MixMatch. Мы можем видеть, как этапы от увеличения данных до повышения резкости взаимосвязаны друг с другом при создании этикетки в конечном итоге.

Смешивать

MixUp - это форма увеличения данных, не зависящая от данных, которая побуждает модель вести себя линейно в промежутках между обучающими примерами [9]. Это достигается за счет выполнения выпуклой комбинации между двумя обучающими выборками и их соответствующими метками:

𝛼 - гиперпараметр, который необходимо настроить.

Для малых значений α ‹1 , значения λ, взятые из распределения 𝐵𝑒𝑡𝑎, близки к 0 1, где влияние MixUp меньше. На правом изображении мы видим, что интенсивность MixUp больше, поскольку α ›1, а случайные значения λ близки к 0,5.

В документе, однако, делается небольшая модификация MixUp, устанавливая λ равным 𝑚𝑎𝑥 (𝜆, 1 − 𝜆):

Это смещает MixUp так, чтобы он был ближе к исходному изображению, так как теперь 𝑥 ′ ближе к 𝑥𝑖, чем к 𝑥𝑗.
Перед применением MixUp дополнили помеченные примеры и их метки объединяются и перемешиваются с примерами без меток и их предполагаемыми метками:

MixUp применяется как к помеченным данным, так и к немаркированным данным, смешанным с записями W, как мы можем видеть ниже:

Причина, по которой авторы склоняют MixUp к исходному изображению, заключается в том, что отдельные потери вычисляются для помеченных и немаркированных данных, и необходимо сохранить порядок, чтобы вычислить потери соответствующим образом для 𝑋 ′ и 𝑈 ′, поскольку W может содержать помеченные или немеченые примеры.

Функция потерь

После MixUp партия расширенных помеченных примеров 𝑋 ′ и немаркированных примеров 𝑈 ′ с их «угаданными» метками вычисляется с отдельными потерями, как мы можем видеть ниже:

Для помеченных данных используется перекрестная энтропия 𝐻 (𝑝, 𝑞) потеря и среднеквадратичная ошибка для немаркированных данных; 𝑑, 𝑇, 𝐾, α, 𝑎𝑛𝑑 λ𝑢 - гиперпараметры.

Заключение

Mixmatch обеспечивает значительно лучшую производительность по сравнению со всеми текущими методами SSL для многих наборов данных. Он также обеспечивает лучший компромисс между точностью и конфиденциальностью для дифференциальной конфиденциальности, поскольку требует значительно меньшего объема данных, чем другие методы для достижения аналогичной производительности.

Что касается слабых мест, он имеет дело со многими гиперпараметрами, которые требуют дополнительной настройки, что может стоить времени и ресурсов. Также авторы части «Исследование абляции» не дают подробного объяснения того, почему какая-то часть MixMatch, например Mixup, играет очень важную роль в ее работе. На мой взгляд, они упускают возможность объяснить интуицию, лежащую в основе этих компонентов, вместо того, чтобы просто показать результаты.

В будущей работе у метода MixMatch есть возможность исследовать и другие области, например, проверить его эффективность на медицинских данных. Кроме того, изучите, как это может вписаться в адаптацию предметной области и обнаружение объектов.