Что такое неконтролируемое машинное обучение?

Это метод машинного обучения, при котором, в отличие от обучения на обучающем наборе данных (как при обучении с учителем), модель сама обнаруживает скрытые закономерности и идеи в данных. Даже не понимая, что означает каждая группа, она делит людей на группы на основе некоторых сходств. Я не буду кратко обсуждать каждый пункт в этом посте; вместо этого я просто приведу краткий обзор многих форм обучения без учителя. Люди часто спрашивают меня, что такое неконтролируемое обучение и сколько существует различных его видов; пока я пытался ответить на этот вопрос, выполнив поиск в Google, я не смог этого сделать. Имея это в виду, я решил написать этот пост.

Рассмотрите следующий сценарий: имеется набор студентов из нескольких университетов, которых нам нужно классифицировать в соответствии с характеристикой, и мы делегируем эту задачу неконтролируемым алгоритмам. В настоящее время мы не уверены, как будут группироваться алгоритмы обучения без учителя. Он мог бы классифицировать их по тому, как они одеваются, по росту или предпочитаемой прическе. Подобно тому, как контролируемые алгоритмы пытаются выявить скрытые закономерности или сходства, неконтролируемые алгоритмы классифицируют данные.

Неконтролируемое обучение — это категория машинного обучения, в которой помеченные данные не используются, но выводы делаются с использованием имеющихся данных. Вам нужно найти шаблоны без зависимых переменных, чтобы решить бизнес-задачи. Рисунок-1 показывает результат кластеризации.

Существует два основных типа методов обучения без учителя:

  • Кластеризация
  • Уменьшение размерности.

Кластеризация

Группировка похожих объектов в сегменты называется кластеризацией. Подобные «вещи» — это не только точки данных, но и совокупность наблюдений, которые

  • Похожие друг на друга в одной группе.
  • Не похоже на наблюдения в других группах.

Есть в основном два важных алгоритма, которые широко используются в отрасли.

Кластеризация k-средних

k-means — это эффективный и широко используемый метод кластеризации, который группирует данные на основе расстояния между точками. Целью кластеризации k-средних является минимизация общей дисперсии внутри кластера, как показано на Рисунке-2.

Следующие шаги генерируют кластеры:

  1. Используйте метод локтя, чтобы определить оптимальное количество кластеров. Это действует как к.
  2. Выберите случайные k точек в качестве центров кластеров из общих наблюдений или точек.
  3. Вычислите расстояние между этими центрами и другими точками в данных и назначьте ближайшему центральному кластеру, к которому принадлежит эта точка, используя любую метрику расстояния. Евклидово расстояние, Манхэттенское расстояние, косинусное расстояние, расстояние Хэмминга.
  4. Пересчитайте центр кластера или центр тяжести для каждого кластера.
  5. Повторяйте шаги 2, 3 и 4, пока одинаковые точки не будут назначены каждому кластеру, а центр тяжести кластера не стабилизируется.

Иерархическая кластеризация

Иерархическая кластеризация — это еще один тип метода кластеризации, который также использует расстояние для создания групп. Следующие шаги генерируют кластеры.

  1. Иерархическая кластеризация начинается с создания каждого наблюдения или точки как единого кластера.
  2. Он идентифицирует два наблюдения или точки, которые находятся ближе всего друг к другу, на основе показателей расстояния.
  3. Объедините эти две наиболее похожие точки и сформируйте один кластер.
  4. Это продолжается до тех пор, пока все кластеры не будут объединены и не сформируют один последний кластер.
  5. Наконец, используя дендрограмму, определите идеальное количество кластеров.

Вы разрезаете дерево, чтобы определить количество кластеров. Срез дерева – это такой, при котором происходит максимальный переход с одного уровня на другой, как показано на Рисунок-3.

Обычно расстояние между двумя кластерами вычисляется на основе евклидова расстояния. Для того же можно использовать многие другие показатели расстояния.

Некоторые из других методов кластеризации:

  • Кластеризация K-средних
  • DBSCAN
  • Иерархическая кластеризация
  • БЕРЕЗА
  • Распространение сходства
  • Агломерационная кластеризация
  • Мини-пакет K-mean
  • ОПТИКА
  • Среднее смещение
  • Спектральная кластеризация
  • Смесь Гаусса

Уменьшение размерности

Уменьшение размерности — это процесс уменьшения количества признаков от целых данных до нескольких важных основных признаков для повышения точности наших методов моделирования и уменьшения вычислительных задач. Например, если мы работаем над прогнозным моделированием, а количество переменных превышает 1000, существует большая вероятность того, что наши алгоритмы могут не работать. Используя любые методы уменьшения размерности, вы можете добавить количество функций, захватив большую часть контекста/информации из всех функций.

  • Это помогает, когда независимые переменные имеют корреляцию между собой, которая называется мультиколлинеарность. Возможно, мы сталкивались с этим чаще, работая над нашими алгоритмами машинного обучения. Вы также можете использовать анализ главных компонентов (PCA) и линейный дискриминантный анализ (LDA) для решения такой задачи.

Уменьшение размерности состоит из двух компонентов:

  1. Выбор функций
  2. Извлечение функций

Вот некоторые из методов выбора признаков (различные методы классифицируются в рамках этих методов):

  • Метод фильтрации
  • Метод оболочки
  • Смешанный метод
  • Встроенный метод

В методах выбора функций доступны различные методы:

Вот некоторые из методов извлечения признаков:

  • Анализ основных компонентов (АПК)
  • Линейный дискриминантный анализ (LDA)
  • Обобщенный дискриминантный анализ (GDA)
  • Случайная проекция
  • Независимый компонентный анализ (ICA)
  • Локально-линейное встраивание (LLE)
  • Встраивание t-распределенных стохастических соседей (t-SNE)

Применение неконтролируемого обучения

Неконтролируемое обучение находит применение в различных областях. Некоторые известные приложения включают:

  1. Сегментация клиентов. Неконтролируемые алгоритмы обучения могут группировать клиентов на основе их покупательского поведения, позволяя компаниям адаптировать маркетинговые стратегии.
  2. Обнаружение аномалий. Выявляя аномальные шаблоны или выбросы, неконтролируемое обучение может помочь обнаружить мошенничество, вторжение в сеть или производственные дефекты.
  3. Группировка изображений и текста. Неконтролируемое обучение может автоматически группировать похожие изображения или тексты, помогая в таких задачах, как организация изображений, группировка документов или рекомендации контента.
  4. Анализ генома. Алгоритмы обучения без присмотра могут анализировать генетические данные для выявления закономерностей и взаимосвязей, что приводит к пониманию персонализированной медицины и генетических исследований.
  5. Анализ социальных сетей. Неконтролируемое обучение можно использовать для выявления сообществ или влиятельных лиц в социальных сетях, что позволяет осуществлять целевой маркетинг или обнаруживать онлайн-сообщества.

Рекомендации

MIT 9.54, класс 13, Обучение без учителя: кластеризация

Дэвид Артур и Сергей Васильвицкий: Кластеризация: Частичная кластеризация

Краткое содержание

В этом посте мы обсудили многие парадигмы обучения без учителя и их подтипы. Если вы хотите изучить идеи обучения без учителя, эта статья, несомненно, поможет вам в последовательном рассмотрении этих концепций.

Спасибо за чтение! Если у вас есть какие-либо предложения или вопросы, не стесняйтесь комментировать ниже или пинговать меня на LinkedIn. Подключите меня на LinkedIn, и если у вас есть какие-либо вопросы, не стесняйтесь спрашивать.