Моя программа использует кластеризацию для создания подмножеств похожих элементов, а затем использует меру сходства по косинусу как метод определения степени сходства кластеров. Например, если у пользователя 1 есть 3 кластера, а у пользователя 2 есть 3 кластера, то каждый кластер сравнивается друг с другом, будет получено 9 результатов с использованием меры косинусного подобия, например. [0,3, 0,1, 0,4, 0,12, 0,0, 0,6, 0,8, 1,0, 0,22]
Моя проблема заключается в том, как, основываясь на этих результатах, превратить эти значения в осязаемый результат, чтобы показать, насколько похожи эти два пользователя?
Простой метод, который я разработал, заключался в том, чтобы просто разделить все значения на количество сравнений и сложить их вместе, чтобы получить 1 значение, но это довольно простой подход.
Спасибо,
AS
Основное описание того, чего я пытаюсь достичь, заключается в том, можно ли определить, насколько похожи два пользователя из веб-сервиса социальных закладок Delicious.com, по их закладкам и тегам.
До сих пор я создавал кластеры из тегов закладок пользователей и совпадений каждого тега, например, один кластер может быть:
fruit: (apple, 15), (orange, 9), (kiwi, 2)
и другой пользователь может создать аналогичный кластер из своих тегов:
fruit: (apple, 12), (strawberry, 7), (orange, 3)
Число показывает, сколько раз тег встречался в сохраненной закладке вместе с тегом «фрукты» в этом примере.
Я использовал меру косинусного подобия для сравнения этих кластеров, чтобы определить, насколько они похожи, и из моего первоначального вопроса, со многими результатами сравнения кластеров (сравнение кластеров всех пользователей с кластерами других пользователей). Я не уверен, как агрегировать результаты для получения значимый результат.
Вполне возможно, что я неправильно использовал сходство косинусов,