Я использую Weka для кластеризации некоторых данных и столкнулся с очень странной проблемой. Когда я использую обычный инструмент «Кластер» для набора данных, я получаю результат
Cluster 1: 87 instances
Cluster 2: 88 instances
Cluster 3: 181 instances
Это то, чего я как бы ожидал от имеющихся у меня данных, так что я считаю это хорошим результатом. Однако я хочу добавить этот кластер как класс и сохранить его как новый файл .arff
, поэтому я пытаюсь использовать фильтр «Добавить кластер», который предоставляет Weka. Теперь в этом фильтре я выбираю тот же кластеризатор (EM для этого эксперимента) и проверяю, чтобы все настройки были одинаковыми (даже начальный номер). Когда я применяю это, я получаю гораздо худший результат
Cluster 1: 87 instances
Cluster 2: 43 instances
Cluster 3: 226 instances
Это явно отличается от того, что было раньше, но я не знаю, почему. Я дважды проверил все свои настройки, чтобы убедиться, что они идентичны, поэтому я почти уверен, что это не результат этого. Кроме того, в это вопрос, Zannjaminderson комментирует ответ, что у него такая же проблема, так что это может быть не я (я бы прокомментировал, чтобы посмотреть, как/если он это исправил, но, увы, у меня нет 50 повторений).
Одна вещь, которая, как мне казалось, могла повлиять на результат, заключалась в том, на чем обучалась кластеризация. В исходной кластеризации я использовал весь обучающий набор, но для кластеризации «Добавить кластер» я не думаю, что он указывает, на чем он обучается, поэтому это может быть источником ошибки. В конечном счете, мой вопрос заключается в следующем: почему происходит это несоответствие и что я могу сделать (если что-нибудь), чтобы остановить его?