Машинное обучение: обучение с учителем и обучение без учителя

Этот блог представляет собой краткое обсуждение методов обучения с учителем и без учителя.

Начнем с обучения с учителем

Контролируемое обучение

Прежде чем мы углубимся в техническую часть, я приведу простой пример того, как маленький ребенок учится этим вещам.

Ну, допустим, мы показали ребенку две картинки. Мы сказали ребенку, что первое изображение - яблоко, а второе - банан. Изучая эти две вещи, ребенок помнит, что если цвет красный, а форма круглая, то это яблоко, а если цвет желтый, а форма не круг, то это банан. Так учится ребенок. Затем мы показали третью картинку и попросили ребенка найти фрукт - яблоко или банан. Итак, как только вы покажете третью фотографию, он определит: «Да, это банан :)». Потому что мы уже разделили две картинки на две категории. чтобы ребенок уже знал, что такое яблоко, а что банан. Так работает обучение с учителем.

Основная идея контролируемого обучения заключается в том, что ваши данные содержат примеры ситуаций, и для каждого примера они указывают результат. Затем машина будет использовать обучающие данные для построения модели, которая может предсказать результат новых данных на основе прошлых примеров.

Итак, давайте рассмотрим простой набор данных о недавно проданном доме.

Наш первый примерный дом может иметь площадь 3 125 квадратных футов с 5 спальнями и 3 ванными комнатами, и мы можем сказать алгоритму, что этот дом был продан за 530 000 долларов. Далее мы могли бы привести пример дома площадью 2100 кв. Футов с 4 спальнями и 2 ванными комнатами, который был продан за 460 000 долларов. Точно так же дом площадью 1200 квадратных футов с 3 спальнями и 1,5 ванными комнатами был продан за 250 000 долларов.

После того, как мы обучили машину имеющимся выше данным, мы просим машину спрогнозировать цену другого дома с 6 спальнями и 4 ванными комнатами.

Важная вещь о контролируемом обучении заключается в том, что оно имеет очень специфическую структуру, показанную ниже.

У нас есть ряды данных, каждая из которых является примером того, что мы используем для обучения модели. В каждой строке есть столбец с известным результатом. мы называем его «ярлыком». В приведенном выше примере дома Цена - это ярлык.

Если метка категориальная, модель называется «классификацией».
Если метка числовая, модель называется «регрессией».

Мы можем использовать нижеприведенные алгоритмы для обучения с учителем.

Логистическая регрессия
Модель / Ансамбль
Временная последовательность

Неконтролируемое обучение

Давайте еще раз рассмотрим детский пример, чтобы понять, что такое обучение без учителя.

Мы показали малышке картинку группы собак и кошек. Допустим, малыш раньше не видел собак и кошек. поэтому ребенок не знает, в чем особенность кошки и собаки. Таким образом, он не может классифицировать собак и кошек как пример контролируемого обучения. В сценарии обучения с учителем ребенок знал, в чем заключаются свойства яблока и банана, потому что мы показали изображения ранее. В этом случае ребенок ничего не знает. Маркировки нет. Таким образом, ребенок не может точно разделить, кто из них кошка, а кто собака. но посмотрев на картинку, ребенок может сказать, что 1,3,5 животных на картинке похожи, а 2,4 животных на картинке похожи, но я не знаю причину и что они собой представляют. Обозначить это как собак и кошек невозможно, но все же мы можем найти закономерность. Это называется обучение без учителя.

Итак, в этом случае данные обучения представляют собой «пример», но у нас нет конкретных результатов. Простым словом нет ярлыка, связанного с этим обучением. При обучении без учителя машина пытается найти интересные закономерности в данных.

Давайте посмотрим на набор данных транзакции

У нас есть информация о дате транзакции, имени клиента, номере счета, пин-коде, классе, почтовом индексе и сумме. обратите внимание, что в этом наборе данных нет какого-либо конкретного ярлыка. Например, этикетка, показывающая, какие из этих транзакций являются мошенническими, а какие нет. Его здесь нет.

Итак, какие закономерности мы можем обнаружить в этом наборе данных без метки. Пока что я упомянул только два паттерна.

Кластеризация
Поищите пример, схожие по группировке.

Итак, у нас есть две транзакции, обе произошли в среду, с использованием пин-кода для аутентификации, обе предназначены для газа, и обе суммы меньше 100 рупий.

Обнаружение аномалий
Ищите очень необычные строки.

Итак, здесь у нас есть транзакция, сумма которой является необычной для клиента Боба с использованием пин-кода.

Цель обучения без учителя - выполнять открытия, находить закономерности и т. Д.

Алгоритмы, доступные для неконтролируемого обучения:

Кластеры
Обнаружение аномалий
Открытие ассоциации
Тренировочные модели

Поскольку данные обучения не имеют конкретного «результата», мы не можем легко оценить результат этого алгоритма как контролируемое обучение. Потому что нет основополагающей истины, с которой мы можем сравнивать.

Обратите внимание: при обучении без учителя данные не маркируются. Таким образом, вы не знаете категории данных, но все же можете найти закономерности. но в контролируемом обучении данные помечены, и вы знаете категорию.

Надеюсь, вы все понимаете разницу между контролируемым и неконтролируемым обучением :)

Машинное обучение: обучение с учителем и обучение без учителя

Контролируемое обучение

Неконтролируемое обучение

Вопросы по теме