Разница между мини-пакетным K-Means и последовательным/онлайн K-Means

Я пробую примеры K-Means и его вариантов, используя библиотеку scikit-learn sklearn.cluster. В чем разница между мини-пакетной кластеризацией K-средних и онлайн/последовательной кластеризацией K-средних?

Я не смог найти реализацию онлайн KMeans в библиотеке scikit. Если размер партии равен 1, то K-Means в мини-пакете будет действовать как онлайн-K-Means?


person Nick    schedule 06.11.2019    source источник


Ответы (1)


Мини-пакет k-средних не сходится к локальному оптимуму.x

По сути, он использует подвыборку данных для многократного выполнения одного шага k-средних. Но поскольку эти выборки могут иметь разные оптимумы, он не будет находить лучшее, а будет перемещаться между решениями разных частей. Вы останавливаетесь после фиксированного количества итераций, иначе он будет работать вечно. Если у вас есть огромные объемы данных с хорошим поведением, это может не иметь большого значения. если у вас есть сложный набор данных и не так много данных, быстрый (не Ллойд) KMeans найдет лучшее решение, а также займет всего несколько итераций. Я сомневаюсь, что у многих людей есть такие большие наборы данных, где мини-пакеты — хорошая идея.

person Has QUIT--Anony-Mousse    schedule 06.11.2019