Кластеризация - это группировка определенного набора объектов или сущностей на основе их характеристик и их агрегирование в соответствии с их сходством.

Кластеризация аналогична классификации, данные сгруппированы. Однако, в отличие от классификации, группы не определены заранее. Вместо этого группировка выполняется путем нахождения сходств между данными в соответствии с характеристиками, обнаруженными в фактических данных. Группы называются кластерами.

Учитывая базу данных D = {t1, t2,… .., tn}, меру расстояния dis (ti, tj), определенную между любыми двумя объектами ti и tj, и целочисленное значение k, проблема кластеризации состоит в том, чтобы определить отображение f : D → {1,… .., k}, где каждый ti назначен одному кластеру Kj, 1 ‹= j‹ = k.
Здесь k - количество кластеров.

Кластер - это набор объектов данных, в котором объекты похожи друг на друга в одном кластере и не похожи на объекты в другом кластере.

Кластерный анализ - это процесс поиска сходств между данными в соответствии с характеристиками, обнаруженными в данных, и группирование похожих объектов данных в кластеры.

Кластеризация - это неконтролируемая классификация. Предопределенных классов нет.

Как данные создаются кластером?
Существуют различные алгоритмы, используемые для создания кластера данных. Вот некоторые из них:
1. Кластеризация K-средних
2. Кластеризация среднего сдвига
3. Пространственная кластеризация на основе плотности (DBSCAN)

  1. Кластеризация K-средних:
    Каждый кластер представлен центром кластера.
    Алгоритм:
    1. Выберите k, число кластеров, которые необходимо определить
    2. Случайным образом выбрать k объектов в качестве начальных центров кластеров
    3. Повторить
    3.1 Назначить каждому объекту их ближайший центр кластера
    3.1.1 Использование евклидова расстояния
    3.2 Вычисление новых центров кластеров
    3.2.1 Вычисление средних точек
    4. До
    4.1 Никаких изменений в центрах кластеров ИЛИ,
    4.2 Ни один объект не меняет свой кластер

Есть ли у них какие-либо недостатки при использовании кластеризации K-средних?
1. Применимо, только если задано среднее.
2. Необходимо заранее указать K, количество кластеров.
2.1 Запустить алгоритм с разными значениями K
3. Невозможно обработать зашумленные данные и выбросы
4. Лучше всего работает, когда кластеры примерно одинакового размера.

Иерархическая кластеризация против разделения

Иерархическая кластеризация
Создается вложенный набор кластеров, каждый уровень иерархии имеет отдельный набор кластеров. На самом низком уровне каждый элемент находится в собственном уникальном кластере. На самом высоком уровне все элементы принадлежат одному кластеру. При такой кластеризации желаемое количество кластеров не вводится.

Иерархическая кластеризация бывает двух типов:
1. Агломеративная кластеризация
2. Разделяющая кластеризация

1. Агломеративная кластеризация
Она начинается с количества кластеров, равного количеству записей, причем каждый кластер имеет только одну запись. Затем пары кластеров последовательно объединяются, пока количество кластеров не уменьшится до k. На каждом этапе объединяются пары ближайших друг к другу кластеров. Если слияние продолжается, оно завершается иерархией кластеров, которая построена только из одного кластера, содержащего все записи.

2. Разделяющая кластеризация
Этот алгоритм использует подход, противоположный агломеративным методам. Они начинают со всех записей в одном кластере, а затем пытаются разбить кластер на более мелкие части.

Разбиение на кластеры
. Это методы, используемые для классификации наблюдений в наборе данных на несколько групп на основе их сходства.

Постройте раздел базы данных D объектов n на набор k кластеров так, чтобы у нас была минимальная сумма квадратов расстояния.

Приведенный выше пример кластеризации K-средних представляет собой метод, использующий секционирующую кластеризацию.

Выбросы
Выбросы - это точки, значения которых сильно отличаются от значений оставшегося набора данных. Это может представлять ошибку в данных или могут быть правильные значения данных, которые просто сильно отличаются от остальных данных.

Они рассматриваются как уединенные скопления. Однако, если алгоритм кластеризации пытается найти более крупные кластеры, эти выбросы будут принудительно помещены в какой-либо кластер. Этот процесс может привести к созданию плохих кластеров путем объединения двух существующих кластеров и оставления выбросов в своем собственном кластере.