У меня есть категориальный набор данных, я выполняю на нем спектральную кластеризацию. Но я получаю не очень хорошие результаты. Я выбираю собственные векторы, соответствующие наибольшим собственным значениям, в качестве центроидов для k-средних.
Пожалуйста, ознакомьтесь с процедурой, которой я следую:
1. Create a symmetric similarity matrix (m*m) using jaccard coefficient.
For example, for a data set,
a,b,c,d
a,b,x,y
The similarity matrix I compute would look like :
|1 0.33|
|0.33 1 |
2. Compute the first k eigen vectors corresponding to largest eigen values. where k is the number of cluster.
3. Normalize the symmetric similarity matrix
4. perform the clustering on the normalized similarity matrix using eigen vectors as initial centroids for k-means.
Мои вопросы:
Is computing Jaccard similarity matrix the right choice for spectral clustering.
Is it the right way of selecting eigen vectors as cluster centroids for spectal clustering because I dont see other options for categorical dataset.
Is there anything wrong with the procedure I follow.