Методы глубокого обучения с полуучителем

На основе: https://arxiv.org/pdf/2103.00550.pdf

Первоначальные авторы: Сянли Ян, Цзысин Сонг, Ирвин Кинг, научный сотрудник IEEE, Цзэнлинь Сюй, старший член IEEE

Дата публикации: 23 августа 2021 г.

Введение

Глубокие нейронные сети доказали свою высокую эффективность в задачах контролируемого обучения при обучении на больших коллекциях размеченных данных. Однако в большинстве реальных случаев использования нет обширных размеченных данных, а разметка данных является сложной задачей и требует значительного количества ресурсов, времени и усилий. Именно здесь полууправляемое обучение (SSL) имеет огромную практическую ценность. SSL представляет собой комбинацию контролируемого и неконтролируемого обучения, в котором используется небольшая часть помеченных примеров и большое количество неразмеченных данных, на основе которых модель должна учиться и делать прогнозы на новых примерах. Базовая процедура включает в себя использование существующих размеченных данных для обозначения остальных неразмеченных данных, что эффективно помогает увеличить обучающие данные. На рис. 1 показан общий процесс SSL.

Существует несколько типов полууправляемых систем, основанных на ключевой целевой функции системы, таких как полууправляемая классификация, полууправляемая кластеризация и полууправляемая регрессия. В этой статье мы в основном рассматриваем классификацию изображений по одной метке.

В SSL преобладают две основные парадигмы обучения: трансдуктивное обучение и индуктивное обучение.

Трансдуктивные методы не создают классификатор для всего входного пространства. Таким образом, предсказания таких систем ограничены объектами, на которых они были обучены, и, следовательно, трансдуктивные методы не имеют отдельных этапов обучения и тестирования.
Классификатор, основанный на индуктивных методах, может предсказать любой объект во входном пространстве. Этот классификатор может быть обучен с использованием немаркированных данных, но его прогнозы для ранее невидимых объектов не зависят друг от друга после завершения обучения.

Большинство методов на основе графов являются трансдуктивными, тогда как большинство других типов методов SSL являются индуктивными.

SSL не может быть улучшен, если не сделаны определенные предположения о распределении данных.

Предположение самообучения: прогнозы с высокой достоверностью считаются точными.
Предположение о совместном обучении: экземпляр x имеет два условно независимых представления, и каждого представления достаточно для задачи классификации.
Предположение генеративной модели: когда количество смешанных компонентов, априорное p(y) и условное распределение p(x|y) верны, можно предположить, что данные получены из смешанной модели.
Предположение кластера: две точки x1 и x2 в одном кластере должны классифицироваться как одна.
Разделение с низкой плотностью: в качестве границы следует использовать область с низкой плотностью, а не область с высокой плотностью.
Предположение о многообразии: если две точки x1 и x2 расположены в локальной окрестности многообразия малой размерности, они имеют одинаковые метки классов.

Методы полуконтролируемого обучения

В следующих разделах приведены некоторые наиболее важные методы SSL, основанные на таксономии на рис. 2.

Генеративные модели

GAN — это неконтролируемая модель. Он состоит из генеративной модели, которая обучается на неразмеченных данных, а также дискриминационного классификатора, определяющего качество генератора. Используя генеративные модели, можно изучить неявные свойства данных, а затем сгенерировать новый набор данных на основе того же распределения. Другими словами, генеративные модели, способные генерировать данные из распределения данных P(x), должны изучить переносимые функции в контролируемую задачу P(x|y) для данной задачи с целями «y».

Частично контролируемые сети GAN

GAN могут изучать распределение реальных данных из немаркированных образцов, что облегчает использование SSL. Существует четыре основных темы использования GAN для SSL.

повторное использование признаков из дискриминатора
использование образцов, сгенерированных GAN, для регуляризации классификатора
изучение модели вывода
использование образцов, созданных GAN, в качестве дополнительных обучающих данных.

Примеры

CatGAN: Категориальная генеративно-состязательная сеть (CatGAN) изменяет целевую функцию GAN, чтобы включить взаимную информацию между наблюдаемыми выборками и их прогнозируемыми категориальными распределениями. Цель состоит в том, чтобы обучить дискриминатор, который разделяет выборки на K категорий, помечая y для каждого x вместо изучения функции значения бинарного дискриминатора.
CCGAN: использование контекстно-условных генеративно-состязательных сетей (CCGAN) предлагается в качестве метода использования немаркированных данных изображения с использованием состязательной потери для таких случаев, как отрисовка изображения. Контекстная информация предоставляется окружающими частями изображения. Генератор обучен генерировать пиксели в недостающей части изображения.
Улучшенная GAN. Существует несколько способов адаптации GAN к сценарию полуконтролируемой классификации. Cat-GAN заставляет дискриминатор максимизировать взаимную информацию между примерами и их предсказанными распределениями классов вместо того, чтобы обучать дискриминатор изучению бинарной классификации.

Частично контролируемая VAE

Вариационные автоэнкодеры (VAE) сочетают в себе глубокие автоэнкодеры и генеративные модели со скрытыми переменными. VAE представляет собой двухэтапную сеть: кодировщик для построения вариационной аппроксимации Q(z|x) к апостериорному P(z|x) и декодер для параметризации вероятности. VAE обучается с двумя целями: цель реконструкции между входными данными и реконструированными версиями и вариационное объективное изучение скрытого пространства, которое следует распределению Гаусса.

SSL может извлечь выгоду из VAE по трем причинам:

Включение неразмеченных данных — естественный процесс
Используя скрытое пространство, можно легко распутать представления.
Это также позволяет нам использовать вариационные нейронные методы.

VAE можно использовать в качестве полуконтролируемой модели обучения в два этапа. Во-первых, VAE обучается с использованием как неразмеченных, так и размеченных данных, чтобы извлечь скрытые представления. Второй шаг влечет за собой VAE, в котором скрытое представление дополняется вектором метки. Вектор меток содержит истинные метки для помеченных точек данных и используется для построения дополнительных скрытых переменных для немаркированных данных.

Примеры

SSVAE: полууправляемый последовательный вариационный автоэнкодер состоит из структуры Seq2Seq и последовательного классификатора. В структуре Seq2Seq входная последовательность сначала кодируется рекуррентной нейронной сетью, а затем декодируется другой рекуррентной нейронной сетью, обусловленной как скрытой переменной, так и категориальной меткой.
Бесконечное VAE: смесь бесконечного числа автоэнкодеров, способных масштабироваться в зависимости от сложности данных, чтобы лучше отражать их внутреннюю структуру. Неконтролируемая генеративная модель обучается с использованием неразмеченных данных, затем эта модель может быть объединена с доступными размеченными данными для обучения дискриминационной модели, которая также представляет собой смесь экспертов.

Согласованность Регуляризация

Регуляризация согласованности основана на идее о том, что на прогнозы должно меньше влиять дополнительное возмущение, накладываемое на входные выборки. SSL-методы регуляризации непротиворечивости обычно используют структуру «учитель-ученик». Цель состоит в том, чтобы обучить модель последовательно прогнозировать на немаркированном примере и его возмущенной версии. Модель учится как ученик и как учитель создает цели одновременно. Поскольку модели сами генерируют цели, они могут быть неверными и затем использоваться в качестве учеников для обучения.

Примеры

Лестничные сети: эта сеть состоит из двух кодировщиков, поврежденного и чистого, и декодера. В поврежденном изображении присутствует гауссовский шум, введенный в каждый слой после пакетной нормализации. Ввод «x» при прохождении через чистый кодировщик будет давать вывод «y», а при прохождении через поврежденный энкодер — «y». Этот 'y' будет передан в декодер шумоподавления для восстановления чистого вывода "y". Потери при обучении вычисляются как MSE между чистой активацией и реконструированной активацией.
П-модель: это упрощенная многозвенная сеть, в которой поврежденный кодировщик удален, и одна и та же сеть используется для получения прогноза как для поврежденных, так и для неповрежденных входных данных. В этой модели два случайных увеличения выборки как для помеченных, так и для немаркированных данных распространяются вперед, и цель состоит в том, чтобы произвести согласованные прогнозы для вариантов, т. е. уменьшить расстояние между двумя прогнозами.

Графические методы

Основная идея обучения с полуучителем на основе графа (GSSL) состоит в том, чтобы извлечь граф из необработанных данных, где каждый узел представляет собой обучающую выборку, а ребро представляет собой измерение сходства пары выборок. Есть помеченные и немеченые образцы, цель состоит в том, чтобы распространить метки от помеченных узлов к немеченым. Методы GSSL можно разделить на методы, основанные на AutoEncoder, и методы, основанные на GNN.

Примеры

Структурное встраивание в глубокую сеть (SDNE): это метод, основанный на AutoEncoder. Эта структура состоит из неконтролируемой и контролируемой частей. Первый — это автоэнкодер, предназначенный для получения результата встраивания для каждого узла, чтобы перестроить окрестности. Во второй части используются лапласовские собственные карты, которые штрафуют модель, когда связанные вершины находятся далеко друг от друга.
Базовый GNN. Графовые нейронные сети (GNN) — это классификатор, который сначала обучен прогнозировать метки классов для помеченных узлов. Затем его можно применить к непомеченным узлам на основе конечного скрытого состояния модели на основе GNN. Он использует передачу нейронных сообщений, при которой сообщения обмениваются и обновляются между каждой парой узлов с помощью нейронных сетей.

Методы псевдомаркировки

Метод псевдомаркировки работает в два этапа. На первом этапе модель обучается на ограниченном наборе размеченных данных. На втором этапе та же модель используется для создания псевдометок для немаркированных данных и добавления псевдометок с высокой достоверностью в качестве целей к существующему набору данных с метками, создавая дополнительные обучающие данные.

Существует два основных паттерна: один заключается в повышении производительности всего фреймворка на основе несовпадения представлений или нескольких сетей, а другой — в самообучении. Методы, основанные на разногласиях, обучают нескольких учащихся и фокусируются на использовании разногласий во время обучения. Алгоритм самообучения использует собственные достоверные прогнозы модели для создания псевдометок для немаркированных данных.

Примеры

Псевдометка. Это простой и эффективный метод SSL, который позволяет обучать сеть одновременно с помеченными и непомеченными данными. Первоначально модель обучается на размеченных данных с использованием перекрестной энтропийной потери. Та же модель используется для прогнозирования всей партии немаркированных образцов. Предсказание максимальной достоверности называется псевдометкой.
Шумный студент. Это полуконтролируемый метод, который работает на дистилляции знаний с моделями равных или больших учеников. Модель учителя сначала обучается на помеченных изображениях, чтобы генерировать псевдометки для непомеченных примеров. После этого более крупная модель ученика обучается на комбинации помеченных и псевдопомеченных образцов. Эти комбинированные экземпляры дополняются с использованием методов увеличения данных и модельного шума. После нескольких итераций этого алгоритма модель ученика становится новым учителем и перемаркирует неразмеченные данные, и цикл повторяется.
SimCLRv2: это SSL-версия SimCLR (Простая платформа для сравнительного изучения визуальных представлений). SimCLRv2 можно разделить на три этапа: независимое от задачи предварительное обучение без учителя, контролируемая точная настройка на помеченных образцах и самообучение или дистилляция с немечеными примерами для конкретных задач. На этапе предварительной подготовки SimCLRv2 изучает представления, максимизируя контрастную функцию потерь при обучении. Эта функция потерь представляет собой потерю на основе расстояния, рассчитанную для пар образцов с целью, чтобы увеличенные виды одного и того же образца были ближе друг к другу в пространстве встраивания, а остальные — далеко друг от друга.

Гибридные методы

Гибридные методы объединяют идеи вышеупомянутых методов, таких как псевдометка, регуляризация согласованности и минимизация энтропии для повышения производительности.

Примеры

MixMatch: этот метод сочетает регуляризацию согласованности и минимизацию энтропии в единой функции потерь. Сначала он вводит увеличение данных как в размеченных, так и в неразмеченных данных. Каждый немеченый образец увеличивается K раз, а затем усредняются предсказания различных дополнений. Чтобы уменьшить энтропию, предполагаемые метки уточняются до того, как будет предоставлена окончательная метка. После этого регуляризация Mixup применяется как к размеченным, так и к неразмеченным данным.
FixMatch. Этот метод сочетает в себе упрощенную регуляризацию согласованности и псевдомаркировку. Здесь для каждого неразмеченного изображения применяются слабое увеличение и сильное увеличение, чтобы получить два изображения. Оба дополнения пропускаются через модель для получения прогнозов. Затем он использует регуляризацию согласованности как кросс-энтропию между горячими псевдометками слабо дополненных изображений и предсказанием сильно расширенных изображений.

Проблемы

Метод SSL, как и любой другой метод машинного обучения, имеет свой набор проблем:

Одна из основных проблем заключается в том, что неизвестно, как SSL работает внутри и какую роль играют различные методы, такие как увеличение данных, методы обучения и функции потерь.
Приведенные выше подходы SSL обычно лучше всего работают только в идеальных средах, когда обучающий набор данных соответствует предположениям проекта, однако в действительности распределение набора данных неизвестно и не обязательно соответствует этим идеальным условиям и может привести к неожиданным результатам.
Если обучающие данные сильно несбалансированы, модели, как правило, отдают предпочтение классу большинства, а в некоторых случаях полностью игнорируют класс меньшинства.
Использование неразмеченных данных может привести к худшим результатам обобщения, чем модель, обученная только размеченным данным.

Заключение

Глубокое обучение с полуучителем уже продемонстрировало замечательные результаты в различных задачах и вызвало большой интерес со стороны исследовательского сообщества из-за его важных практических применений. Будем ждать и смотреть, что готовит нам будущее!

Методы глубокого обучения с полуучителем

Введение

Методы полуконтролируемого обучения

Генеративные модели

Согласованность Регуляризация

Графические методы

Методы псевдомаркировки

Гибридные методы

Проблемы

Заключение

Вопросы по теме