Вступление

Область искусственного интеллекта резко выросла за последние годы, создав самые современные модели. Однако большинство этих моделей полагаются на массивные наборы данных, помеченных вручную. Эта тяжелая работа требует больших затрат времени и средств: на очистку и сборку данных могут потребоваться человеко-месяцы или годы. Не забывайте, что данные даже развиваются в реальном мире и могут нуждаться в периодическом обновлении.
По вышеупомянутым причинам практикующие врачи обращаются к более слабой форме надзора: создание обучающих данных с различными шаблонами, правилами, внешними знаниями или другими классификаторами. Все это способы создания обучающих данных.

Типы обучения со слабым контролем

  • Неполный
    Этот метод используется в зависимости от вмешательства человека для активного или частично контролируемого обучения. Для активного обучения эксперт в предметной области маркирует немаркированные данные, стоимость маркировки которых зависит только от количества запросов. Для полууправления используются методы, не связанные с вмешательством человека, такие как Генеративные модели и Transductive-SVM.
  • Неточность
    Этот метод принят для глубокого обучения (особенно для CNN) для многоэкземплярного обучения. Здесь пользователь предоставляет пакет данных с коллекцией экземпляров, пакет получает положительную метку, если хотя бы один экземпляр в нем является положительным, и отрицательно помечается, если все экземпляры в нем отрицательны. Цель состоит в том, чтобы предугадать маркировку невидимых пакетов.
  • Неточно
    Этот метод применяется в ансамблевых системах для идентификации немаркированных примеров и последующей проверки с помощью обучающего набора для исправления. Такие методы, как краудсорсинг, являются экономически эффективным способом сбора этикеток.

Надзор: ML с трубкой

Snorkel - это фреймворк, используемый для изучения неточных или зашумленных меток данных из разных источников. Здесь вместо использования помеченных вручную данных пользователю предлагается создать функции маркировки (LF), которые маркируют подмножества немаркированных данных. Эти LF могут кодировать шаблоны, вечные ресурсы данных, зашумленные метки, слабые классификаторы и т. Д.
Самое приятное то, что если цель нашего моделирования данных изменится, мы можем легко адаптироваться к изменениям быстро, настроив наши функции маркировки .

Поскольку данные являются случайными и зашумленными, весьма вероятно, что зашумленный вывод может перекрываться и вызывать конфликты, обработка одного и того же шноркеля выполняется по следующему конвейеру:

  1. Применение LF к немаркированным данным
  2. Изучите точность LF без маркировки данных и весовых выходов соответственно с помощью генеративных моделей.
  3. Генеративная модель выводит набор обучающих меток для обучения мощных дискриминационных моделей.

Пример функций маркировки:

Здесь мы видим, что наш lf1 устанавливает условие маркировки, определяющее присутствие химикатов, которые маркируют немаркированное подмножество 1, если истинно, и 0, если ложно, соответственно. А out lf2 использует шаблон регулярного выражения для поиска наличия «причины» для маркировки подмножества.
Кроме того, может быть ряд функций маркировки для конкретных задач в зависимости от эвристики, шаблонов регулярных выражений и других стратегий генерации.

Пример генеративной модели:

Эта предполагаемая генеративная модель используется с функциями маркировки для обучения чувствительных к шуму дискриминационных моделей. Мы минимизируем потери модели в соответствии с вероятностями (P (L | y)) меток, сгенерированных функцией разметки (L) для помеченного выхода (y).

Основные моменты обучения без учителя

  • В Стэнфордском исследовании сравнивалась продуктивность преподавания экспертов в предметной области (МСП) с помощью Snorkel Vs. тратя эквивалентное время на ручную маркировку данных, WSL строит модели в 2,8 раза быстрее, а результаты прогнозирования на 45,5% лучше.
  • Для текстовых и графических задач Snorkel улучшил работу на 132% по сравнению с базовыми технологиями.

Ресурсы:

Свяжитесь со мной по адресу:

LinkedIn: https://www.linkedin.com/in/manmohan-dogra-4a6655169/

GitHub: https://github.com/immohann

Twitter: https://twitter.com/immohann