Эта статья дает вам общее представление о различных методах кластеризации и их формировании.

Что такое кластерный анализ?

Группировка объектов данных на основе информации, содержащейся в данных, которая описывает объекты и их отношения. Целью кластеризации является создание групп таким образом, чтобы объекты в группе были похожи друг на друга и отличались от объектов в других группах. Чем больше сходство внутри группы и больше разница между группами, тем лучше качество кластеризации.

Различные типы методов кластеризации:

Хорошо разделенные кластеры:

· Расстояние между любыми двумя точками в разных группах больше, чем расстояние между любыми двумя точками в той же группе.

· Эти скопления не обязательно должны быть шаровидными, но могут иметь любую форму.

· Иногда используется порог, чтобы указать, что все объекты в кластере должны достаточно близко друг к другу. Определение кластера выполняется только тогда, когда данные содержат естественные кластеры.

Кластер на основе прототипа:

· Если данные числовые, прототипом кластера часто является центроид, то есть среднее значение всех точек в кластере.

· Если данные имеют категориальные атрибуты, прототипом кластера часто является медоид, т. е. наиболее репрезентативная точка кластера.

· Объекты в кластере ближе к прототипу кластера, чем к прототипу любого другого кластера.

· Кластеры на основе прототипов также могут называться кластерами «на основе центра».

· Эти скопления обычно шаровидные.

· K-средние и K-Medoids являются примерами алгоритмов кластеризации на основе прототипов.

Кластеры на основе графиков (кластеры на основе смежности)

· Два объекта соединяются, только если они находятся на определенном расстоянии друг от друга.

· Каждая точка в кластере ближе по крайней мере к одной точке в том же кластере, чем к любой точке в другом кластере.

· Полезно, когда кластеры нерегулярны и переплетены.

· Это не работает эффективно, когда в данных есть шум, как показано на рисунке выше, небольшой мост точек может объединить два отдельных кластера в один.

· Клика - это еще один тип кластера на основе графа (подробно описан в моих будущих статьях).

· Агломеративная иерархическая кластеризация тесно связана с техникой кластеризации на основе графов.

Кластеры на основе плотности:

· Кластер - это плотная область объектов, окруженная областью с низкой плотностью.

· Кластеры на основе плотности используются, когда кластеры нерегулярны, переплетены и когда присутствуют шум и выбросы.

· Точки в области с низкой плотностью классифицируются как шум и опускаются. Изображение выше можно сравнить с изображением в разделе «Кластеризация на основе графа» для лучшего понимания. Мост между двумя кругами и другой небольшой кривой устраняется.

· DBSCAN - это пример алгоритма кластеризации на основе плотности.

Вышеупомянутые методы являются основой для понимания формирования кластеров по-разному. Что нужно узнать дальше, чтобы лучше узнать о кластеризации?

  • Иерархическая или секционная кластеризация. Эксклюзивная, перекрывающаяся и нечеткая кластеризация.
  • Различные кластерные алгоритмы, такие как K-Means, DBSCAN, нечеткая кластеризация, SOM (самоорганизация - карты) и EM (максимизация ожиданий).
  • Кластерные показатели качества. (Внутрикластерное качество и Межкластерное качество)
  • Сильные стороны и ограничения

источник: Введение в интеллектуальный анализ данных (от Pearson Education)