✏️ Что такое кластеризация?

Кластеризация — это задача группировки набора объектов таким образом, чтобы объекты в одной группе были более похожи друг на друга, чем на объекты в других группах.

✏️ Что такое K означает кластеризацию?

Кластеризация методом K-средних – это метод векторного квантования, первоначальный из обработки сигналов, целью которого является разбиение n наблюдений на k кластеров, в которых каждое наблюдение принадлежит кластеру с ближайшим , послуживший прототипом кластера.

Проще говоря, кластеризация k-средних пытается сгруппировать похожие виды элементов в виде кластеров. Из набора данных он находит сходство между элементами и группирует их в кластеры.

❄️ Основная цель алгоритма K-Means – минимизировать сумму расстояний между точками и центроидами соответствующих кластеров.

✏️ Типы кластеризации:

Кластеризация — это тип обучения без учителя, при котором точки данных группируются в разные наборы в зависимости от степени их сходства.

Различные типы кластеризации:

  • Иерархическая кластеризация
  • Кластеризация разделов

Иерархическая кластеризация подразделяется на:

  • Агломерационная кластеризация
  • Разделительная кластеризация

Разделение кластеризации далее подразделяется на:

  • Кластеризация K-средних
  • Нечеткая кластеризация C-средних

✏️ Как именно формируется кластеризация / K означает, что кластеризация работает?

Сначала мы должны выбрать номер кластера, который нам нужен, т. е. k. Например, нам нужно 2 кластера, тогда значение k равно 2.

Затем мы случайным образом выбираем центр тяжести для каждого кластера. Пусть у нас есть 2 кластера, что означает, что значение k равно 2.

На изображении выше красные и зеленые кружки обозначают центр тяжести их кластера.

Затем назначьте все точки рядом с центроидом как единый кластер.

Теперь мы можем ясно видеть, что точки, близкие к центроиду красного цвета, находятся под красным кластером и то же самое с центроидом зеленого цвета.

Теперь давайте сделаем центр тяжести обычными точками.

На изображении выше крест — это центр тяжести их соответствующего кластера.

Теперь снова запустите тот же процесс создания ближайшей точки к центроиду как части кластера. Тогда мы получим изображение ниже:

С помощью этого процесса мы можем назначить все точки конкретному кластеру. Это называется одиночной итерацией.

🤔 Но когда мы должны остановить процесс, чтобы получить окончательные кластеры?

❄️ Критерии остановки кластеризации K-средних:

Есть три критерия остановки, которые можно использовать для остановки алгоритма K-средних:

  1. Центроиды новообразованных кластеров не меняются
  2. Точки остаются в одном кластере
  3. Достигнуто максимальное количество итераций

Мы также можем остановить формирование кластера, когда сделанные изменения очень малы. или когда точки остаются в одном кластере после многих итераций.

Наконец, мы можем остановить обучение, если достигнуто максимальное количество итераций.

✏️ Применение кластеризации K-средних:

K Means Clustering используется во многих случаях использования, связанных с бизнесом, вот некоторые из них:

  • Успеваемость
  • Поисковые системы
  • Диагностические системы
  • Беспроводные сенсорные сети

Академическая успеваемость:

На основании полученных баллов учащиеся распределяются по классам, таким как A, B или C.

Системы диагностики:

Медицинская профессия использует k-средние для создания более интеллектуальных систем поддержки принятия медицинских решений, особенно при лечении заболеваний печени.

Поисковые системы:

Кластеризация является основой поисковых систем. При выполнении поиска результаты поиска необходимо сгруппировать, и поисковые системы очень часто используют для этого кластеризацию.

Беспроводные сенсорные сети:

Алгоритм кластеризации играет роль поиска головок кластеров, которые собирают все данные в соответствующем кластере.

✏️ K означает кластеризацию в домене безопасности:

Алгоритм кластеризации k-Means разбивает набор данных на значимые шаблоны. Система обнаружения вторжений обнаруживает вредоносные атаки, которые обычно включают кражу информации. Из исследований видно, что методы обнаружения вторжений на основе кластеризации могут быть полезны для обнаружения неизвестных моделей атак по сравнению с традиционными системами обнаружения вторжений. В этой статье представлены модифицированные k-Means с применением этапов предварительной обработки и нормализации. В результате повышается эффективность и устраняются недостатки k-Means. Этот подход предлагается для работы с данными о вторжении в сеть, и алгоритм был протестирован с набором данных KDD99 и дал удовлетворительные результаты.

Изображения, используемые в этом блоге, созданы и принадлежат: - www.analyticsvidhya.com

Спасибо за чтение.