Эта статья дает вам общее представление о различных методах кластеризации и их формировании.
Что такое кластерный анализ?
Группировка объектов данных на основе информации, содержащейся в данных, которая описывает объекты и их отношения. Целью кластеризации является создание групп таким образом, чтобы объекты в группе были похожи друг на друга и отличались от объектов в других группах. Чем больше сходство внутри группы и больше разница между группами, тем лучше качество кластеризации.
Различные типы методов кластеризации:
Хорошо разделенные кластеры:
· Расстояние между любыми двумя точками в разных группах больше, чем расстояние между любыми двумя точками в той же группе.
· Эти скопления не обязательно должны быть шаровидными, но могут иметь любую форму.
· Иногда используется порог, чтобы указать, что все объекты в кластере должны достаточно близко друг к другу. Определение кластера выполняется только тогда, когда данные содержат естественные кластеры.
Кластер на основе прототипа:
· Если данные числовые, прототипом кластера часто является центроид, то есть среднее значение всех точек в кластере.
· Если данные имеют категориальные атрибуты, прототипом кластера часто является медоид, т. е. наиболее репрезентативная точка кластера.
· Объекты в кластере ближе к прототипу кластера, чем к прототипу любого другого кластера.
· Кластеры на основе прототипов также могут называться кластерами «на основе центра».
· Эти скопления обычно шаровидные.
· K-средние и K-Medoids являются примерами алгоритмов кластеризации на основе прототипов.
Кластеры на основе графиков (кластеры на основе смежности)
· Два объекта соединяются, только если они находятся на определенном расстоянии друг от друга.
· Каждая точка в кластере ближе по крайней мере к одной точке в том же кластере, чем к любой точке в другом кластере.
· Полезно, когда кластеры нерегулярны и переплетены.
· Это не работает эффективно, когда в данных есть шум, как показано на рисунке выше, небольшой мост точек может объединить два отдельных кластера в один.
· Клика - это еще один тип кластера на основе графа (подробно описан в моих будущих статьях).
· Агломеративная иерархическая кластеризация тесно связана с техникой кластеризации на основе графов.
Кластеры на основе плотности:
· Кластер - это плотная область объектов, окруженная областью с низкой плотностью.
· Кластеры на основе плотности используются, когда кластеры нерегулярны, переплетены и когда присутствуют шум и выбросы.
· Точки в области с низкой плотностью классифицируются как шум и опускаются. Изображение выше можно сравнить с изображением в разделе «Кластеризация на основе графа» для лучшего понимания. Мост между двумя кругами и другой небольшой кривой устраняется.
· DBSCAN - это пример алгоритма кластеризации на основе плотности.
Вышеупомянутые методы являются основой для понимания формирования кластеров по-разному. Что нужно узнать дальше, чтобы лучше узнать о кластеризации?
- Иерархическая или секционная кластеризация. Эксклюзивная, перекрывающаяся и нечеткая кластеризация.
- Различные кластерные алгоритмы, такие как K-Means, DBSCAN, нечеткая кластеризация, SOM (самоорганизация - карты) и EM (максимизация ожиданий).
- Кластерные показатели качества. (Внутрикластерное качество и Межкластерное качество)
- Сильные стороны и ограничения
источник: Введение в интеллектуальный анализ данных (от Pearson Education)