Машинное обучение можно разделить на контролируемое и неконтролируемое обучение.

Вместо того, чтобы изобретать велосипед, я решил, что должен использовать следующий отрывок из этой статьи как есть, поскольку автор (Нил Латиа) проделал замечательную работу по ее описанию. Я рекомендую вам прочитать его статью целиком в блоге Mixpanel. Он довольно хорошо написан.

Обучение без учителя заключается в выявлении закономерностей

Примеры, которые обычно используются в неконтролируемых алгоритмах машинного обучения, характеризуются тем, что не существует детерминированного «правильного» ответа, который алгоритм должен научиться предсказывать. Продукты, использующие неконтролируемое обучение, обычно представляют собой шаблоны, всплывающие в пользовательских данных.

Простой пример — «В тренде на этой неделе» на Foursquare. Есть ли какие-либо данные, которые могли бы объективно сказать нам, что место должно или не должно быть в тренде на этой неделе? Нет. Вместо этого есть данные, которые показывают, как пользователи Foursquare посещали места на той неделе, и закономерности в этих данных создают трендовые места. Обратите внимание, что это отличается от того, думают ли пользователи, что результат алгоритма правильный или нет («что? McDonald’s в тренде?»).

Обучение с учителем предполагает прогнозирование результата

Вместо этого примеры, которые передаются в контролируемые алгоритмы машинного обучения, имеют детерминированный результат, который алгоритм должен попытаться предсказать. Самый классический пример этого в действии — обнаружение спама.

Вы приводите алгоритмические примеры писем, которые являются и не являются спамом; каждый пример электронной почты помечен спамом или нет. Затем, получив новое письмо, вы спрашиваете алгоритм: спам ли это? Помните, что цель алгоритма — свести к минимуму количество ошибок, которые он допускает. Если алгоритм говорит «да», вы отправляете это письмо в ящик спама пользователя.