Концепция и мотивация полуконтролируемого обучения

Полууправляемое обучение — это подход к машинному обучению, который объединяет небольшой объем размеченных данных с большим объемом неразмеченных данных во время обучения. Мотивация обучения с полуучителем заключается в том, что получение помеченных данных может занять много времени и денег, в то время как неразмеченные данные часто более доступны. Используя как размеченные, так и неразмеченные данные, полууправляемое обучение направлено на повышение производительности модели по сравнению с использованием только размеченных данных.

Самообучение и совместное обучение

  1. Самообучение. При самообучении начальная модель обучается с использованием доступных размеченных данных. Затем обученная модель используется для прогнозирования меток для немаркированных данных. Наиболее надежные прогнозы добавляются в помеченный набор данных, и модель переобучается с использованием этого дополненного помеченного набора данных. Этот процесс можно повторять итеративно, постепенно улучшая производительность модели.
  2. Совместное обучение. Совместное обучение включает в себя обучение двух отдельных моделей различным наборам функций из помеченного набора данных. Затем каждая модель предсказывает метки для неразмеченных данных, и наиболее достоверные предсказания каждой модели добавляются в размеченный набор данных. Затем модели переобучаются на расширенном наборе данных с метками. Как и самообучение, совместное обучение может выполняться итеративно, при этом каждая итерация в идеале приводит к повышению производительности.

Распространение меток и распространение меток

  1. Распространение меток. Распространение меток — это основанный на графике метод обучения с полуучителем. Он строит граф подобия на основе входных данных, где узлы представляют точки данных, а ребра представляют сходство между точками данных. Помеченные точки данных используются для инициализации графа, а их метки распространяются на соседние узлы на основе весов ребер (подобие). Этот процесс продолжается до тех пор, пока не будет достигнута сходимость или заданный критерий остановки, что приводит к маркировке всего графа.
  2. Распространение меток. Распространение меток аналогично распространению меток, но в нем используется член регуляризации, который контролирует плавность присвоения меток. Это предотвращает переоснащение и побуждает модель изучать функцию плавной маркировки. Подобно распространению меток, распространение меток строит граф подобия и итеративно распространяет метки до тех пор, пока не будет достигнута сходимость или критерий остановки.

Объединяя сильные стороны как контролируемого, так и неконтролируемого обучения, частично контролируемое обучение может стать мощным подходом для повышения производительности модели, когда размеченных данных мало, а неразмеченных данных много.