Кластеризация для начинающих

что мы понимаем под кластеризацией???

Кластеризацию можно определить как набор объектов, похожих друг на друга, вы можете понимать кластеры как группу объектов одного типа.

Это помогает нам легко решать большие проблемы.

мы все видели ManV Wild, где ведущий программы исследует леса, поэтому всякий раз, когда он находит что-то новое, будь то растение, животное или фрукты, он пытается вспомнить, какие из них больше всего похожи на новую вещь.

как только он узнает, к какой группе или кластеру принадлежит эта новая вещь. Ему становится легко принять решение, оставить ли вещь себе, выбросить.

K-средний алгоритм кластеризации

Это неконтролируемый алгоритм машинного обучения, который помогает нам находить кластеры в наборе данных, который мы предоставляем.

K-mean — очень популярный алгоритм кластеризации. K в k-средних — это свободный параметр, значение которого дает нам количество кластеров, которые мы хотим в нашем наборе данных.

Как работает k-mean???

Шаг 1

Он начинается со случайного выбора k точек в наборе данных, которые мы называем центрами тех k кластеров, которые мы также называем центроидами.

Шаг 2

затем мы узнаем евклидово расстояние всех точек данных от центроида этих k кластеров и назначим эти точки данных кластерам, которые находятся на минимальном расстоянии от центроида кластеров.

Шаг 3

Теперь мы обновляем центроид кластера средним значением всех значений, присутствующих в кластерах, а затем снова повторяем шаг 2.

мы продолжаем повторять шаги 2 и 3 до тех пор, пока не обнаружим никаких изменений в значениях центроидов этих кластеров или числа, пока мы не хотим повторить его.

Одна из самых больших проблем с кластеризацией K-Mean заключается в том, что нам нужно предоставить значение k (количество кластеров), и его трудно определить значение k, поскольку у нас нет информации о данных.

Как найти оптимальное значение k для кластеризации K-Mean?

мы можем найти оптимальное значение k с помощью метода локтя.

поэтому в этом методе мы находим сумму квадратов ошибок каждого кластера отдельно, а затем добавляем все SSE.

SSE = сумма квадратов расстояний каждого элемента от его значения центроида

мы построим график с

мы можем видеть, что значение SSE здесь уменьшается по мере увеличения значения k, так как мы видим, что здесь сформировалась локтевая структура, что является одной из причин, по которой мы называем эту кривую локтевой кривой.

как мы знаем, у нас есть нижняя точка в нашем локте, откуда мы поворачиваем локоть вверх и вниз, эту точку можно увидеть при k = 3, поэтому мы выбираем значение k как 3 как оптимальное значение.

так почему бы нам не выбрать значение k с более низким значением SSE?

поэтому здесь нам нужно понять одну вещь: по мере увеличения количества кластеров в наборе данных у нас будет больше наборов данных, которые ближе к центроиду, поскольку дальняя точка данных будет формировать любой другой кластер, что приведет к уменьшению значения SSE.

Но, делая это, мы можем в конечном итоге создать дополнительную классификацию данных, которая вообще бесполезна.

Самый большой недостаток кластеризации K-mean заключается в том, что мы должны предоставить значение k при выполнении кластеризации K-mean. чтобы преодолеть это, мы можем использовать иерархическую кластеризацию

Существует два типа иерархической кластеризации

Агломеративная иерархическая кластеризация
Разделительная иерархическая кластеризация

Агломеративная иерархическая кластеризация

Это также известно как восходящий подход, при котором мы начинаем с каждой точки данных как отдельных кластеров, а затем начинаем объединять их на основе их расстояния (здесь мы использовали евдикулярное расстояние для измерения расстояния между данными). точек), и в итоге у нас остается только один кластер.

Разделительная иерархическая кластеризация

При этом мы используем нисходящий подход, также известный как Разделительный анализ.

Здесь у нас есть один кластер, который состоит из всех точек данных, а затем мы начинаем делить наш кластер на два кластера и повторяем это до тех пор, пока у нас не останется только один элемент в каждом кластере.

Как следует выбирать количество кластеров в иерархической кластеризации?

Дендрограмма — это древовидная диаграмма, на которой записаны последовательности слияний и разбиений. Чем больше расстояние между вертикальными линиями на дендрограмме, тем больше расстояние между этими кластерами.

Значение k можно найти, выбрав расстояние по оси Y, а затем нарисовав вертикальную линию на этом расстоянии, а затем мы подсчитаем количество пересекаемых ею кластерных линий, что даст нам значение k для нашего набора данных.

поэтому в приведенном выше примере мы видим, что в наборе данных будет 5 кластеров, когда мы выберем расстояние 135.

Это один из способов найти наиболее оптимальное значение k в нашем наборе данных. для оптимального решения при кластеризации мы можем использовать это значение k в алгоритме кластеризации k-mean.

Это все в этом блоге, если вам нравится моя работа, пожалуйста, следуйте за мной.

Кластеризация для начинающих

K-средний алгоритм кластеризации

Как работает k-mean???

Вопросы по теме