Спектральная кластеризация с матрицей подобия, построенной по коэффициенту жаккара

У меня есть категориальный набор данных, я выполняю на нем спектральную кластеризацию. Но я получаю не очень хорошие результаты. Я выбираю собственные векторы, соответствующие наибольшим собственным значениям, в качестве центроидов для k-средних.

Пожалуйста, ознакомьтесь с процедурой, которой я следую:

1. Create a symmetric similarity matrix (m*m) using jaccard coefficient.
   For example, for a data set,
   a,b,c,d
   a,b,x,y
   The similarity matrix I compute would look like :
   |1       0.33|
   |0.33     1  |
2. Compute the first k eigen vectors corresponding to largest eigen values. where k is the number of cluster.
3. Normalize the symmetric similarity matrix
4. perform the clustering on the normalized similarity matrix using eigen vectors as initial centroids for k-means.

Мои вопросы:

Is computing Jaccard similarity matrix the right choice for spectral clustering.

Is it the right way of selecting eigen vectors as cluster centroids for spectal clustering because I dont see other options for categorical dataset.

Is there anything wrong with the procedure I follow.

person Sam    schedule 10.06.2015    source источник


Ответы (1)


Насколько я могу судить, вы смешали и перемешали несколько подходов. Неудивительно, что не работает ...

  1. вы можете просто использовать расстояние жаккарда (простая инверсия сходства жаккарда) + иерархическая кластеризация
  2. вы можете использовать MDS для проецирования данных, затем k-means (возможно, то, что вы пытаетесь сделать)
  3. распространение сродства и т. д. стоит попробовать
person Has QUIT--Anony-Mousse    schedule 10.06.2015
comment
Спасибо за ответ, я только новичок в области кластерного анализа, просто пробую разные подходы. Нужно спросить другое. Будет ли создание матрицы сходства (m * m) с использованием коэффициента Жаккара, а затем выполнение k-средних значений матрицы, принесет какую-либо пользу. Это жизнеспособный подход? Я пробовал использовать его для нескольких наборов данных в archive.ics.uci.edu/ml/datasets .html (конгресс, гриб), дает многообещающие результаты. Спасибо - person Sam; 11.06.2015
comment
k-means следует запускать на необработанных данных. он предназначен для линейного евклидова векторного пространства. Не запускайте методы только потому, что это возможно. Разберитесь в требованиях и целях алгоритма и вашей проблемы. Если вы можете заставить их выровняться (что обычно требует значительной предварительной обработки), попробуйте. - person Has QUIT--Anony-Mousse; 11.06.2015