В вашем случае, когда у вас есть истинная метка образцов, проверка очень проста. Прежде всего, вычислите матрицу путаницы (http://en.wikipedia.org/wiki/Confusion_matrix). Затем извлеките из него все соответствующие меры: истинно положительные, ложноотрицательные, ложноположительные и истинно отрицательные. Затем вы можете найти точность, отзыв, скорость промаха и т. д.
Убедитесь, что вы понимаете смысл всего вышеперечисленного. Они в основном говорят вам, насколько хорошо ваша кластеризация предсказала/распознала истинную природу ваших данных.
Если вы используете Python, просто используйте пакет sklearn: http://scikit-learn.org/stable/modules/model_evaluation.html
Кроме того, было бы неплохо запустить некоторую внутреннюю проверку, чтобы увидеть, насколько хорошо разделены ваши кластеры. Существуют известные внутренние меры валидности, такие как: Индекс Силуэта БД, индекс Данна, показатель Калински-Харабаша, показатель гаммы, нормализованный разрез и т. д.
Подробнее читайте здесь: обширное сравнительное исследование кластерных индексов валидности Олатц Арбелайц, Ибай Гуррутксага, Хавьер Мугуэрса, Хесус М. Перес, Иньиго Перона
person
Serendipity
schedule
09.11.2014