Результаты кластеризации Weka различаются для одинаковых настроек

Я использую Weka для кластеризации некоторых данных и столкнулся с очень странной проблемой. Когда я использую обычный инструмент «Кластер» для набора данных, я получаю результат

Cluster 1: 87 instances
Cluster 2: 88 instances
Cluster 3: 181 instances

Это то, чего я как бы ожидал от имеющихся у меня данных, так что я считаю это хорошим результатом. Однако я хочу добавить этот кластер как класс и сохранить его как новый файл .arff, поэтому я пытаюсь использовать фильтр «Добавить кластер», который предоставляет Weka. Теперь в этом фильтре я выбираю тот же кластеризатор (EM для этого эксперимента) и проверяю, чтобы все настройки были одинаковыми (даже начальный номер). Когда я применяю это, я получаю гораздо худший результат

Cluster 1: 87 instances
Cluster 2: 43 instances
Cluster 3: 226 instances

Это явно отличается от того, что было раньше, но я не знаю, почему. Я дважды проверил все свои настройки, чтобы убедиться, что они идентичны, поэтому я почти уверен, что это не результат этого. Кроме того, в это вопрос, Zannjaminderson комментирует ответ, что у него такая же проблема, так что это может быть не я (я бы прокомментировал, чтобы посмотреть, как/если он это исправил, но, увы, у меня нет 50 повторений).

Одна вещь, которая, как мне казалось, могла повлиять на результат, заключалась в том, на чем обучалась кластеризация. В исходной кластеризации я использовал весь обучающий набор, но для кластеризации «Добавить кластер» я не думаю, что он указывает, на чем он обучается, поэтому это может быть источником ошибки. В конечном счете, мой вопрос заключается в следующем: почему происходит это несоответствие и что я могу сделать (если что-нибудь), чтобы остановить его?


person Alerra    schedule 26.07.2018    source источник
comment
может быть, установить KMeansRuns = 1 в диалогах конфигурации EM?   -  person knb    schedule 27.07.2018
comment
Я только что попробовал это, и, к сожалению, несоответствие все еще существует. Не только это, но также кажется, что оба классификатора на самом деле немного ухудшились в отношении своей классификации, что имеет смысл, поскольку однократный запуск KMeans, вероятно, не даст оптимального результата.   -  person Alerra    schedule 27.07.2018
comment
Кластеризация в Weka просто не очень хороша.   -  person Has QUIT--Anony-Mousse    schedule 30.07.2018
comment
@ Anony-Mousse Хорошо, это прискорбно, если это действительно так. Спасибо, по крайней мере, за то, что я не заставил меня рвать на себе волосы из-за этого еще на один день :)   -  person Alerra    schedule 31.07.2018