Взгляд на генеративные алгоритмы
Кластеризация с использованием метода K-средних - один из самых простых алгоритмов, который также оказался довольно надежным. Если вы хотите выполнить машинное обучение для некоторых немаркированных данных, вам следует рассмотреть кластеризацию K-средних в качестве первого предпочтительного алгоритма. Сказав это, есть некоторые фундаментальные проблемы с кластеризацией K-средних. Начнем с того, что кластеризация K-средних не имеет какой-либо математической основы, что является нормой для общих алгоритмов машинного обучения. Кроме того, в реальном мире видно, что K-среднее имеет тенденцию к кластеризации до локальных минимумов. Следовательно, мы рассмотрим максимизацию ожидания, которая является своего рода обобщением кластеризации K-средних.
Максимизация ожиданий относится к гауссовым моделям, которые являются скорее способом мышления и моделирования, чем конкретным алгоритмом. Кластеры моделируются как распределения Гаусса, а не их средствами. В таких случаях происходит соответствие между всеми точками данных и всеми кластерами, а не соответствие между каждой точкой данных и ее собственным кластером, как в случае кластеризации K-средних. Таким образом, мы также рассматриваем случаи, когда между различными кластерами существует перекрытие.
Максимизация ожиданий работает так же, как K-средние, за исключением того, что данные назначаются каждому кластеру с весами, которые являются мягкими вероятностями, а не расстояниями. Преимущество состоит в том, что модель становится генеративной, поскольку мы определяем распределение вероятностей для каждой модели.
Как правило, мы сталкиваемся с большим количеством измерений в наших функциях, и поэтому мы будем использовать многомерный гауссиан, который показан в форме ниже.
Σ is the covariance matrix μ is the mean vector
Теперь, чтобы получить значения nu и sigma, вам просто нужно получить оценки максимального правдоподобия, которые можно легко вычислить ниже.
Алгоритм ЭМ-обучения состоит из следующих шагов.
- E-step: делается первоначальное предположение для параметров модели и создается распределение вероятностей.
- В модель вводятся новые наблюдаемые данные.
- M-шаг: распределение вероятностей E-шага изменяется и модифицируется для включения новых данных.
- Вышеупомянутый процесс повторяется до тех пор, пока не останется изменений между E-шагом и M-шагом.
Доказано, что этот алгоритм сходится.
Приложения
- Так как результирующее распределение вероятностей можно рассматривать как объединенное распределение вероятностей нескольких гауссиан, следовательно, его можно использовать для разделения смешанных сигналов.
- Алгоритм EM представляет собой алгоритм оценки максимального правдоподобия и, следовательно, может использоваться для оценки скрытых марковских моделей и многих других применений.
И наконец, поскольку алгоритм EM используется для нахождения распределения вероятностей, он может быть очень медленным даже на самом быстром компьютере. В таких случаях, в зависимости от задачи, может иметь смысл использовать более простой алгоритм.
Если вы нашли этот пост полезным, нажмите кнопку хлопков. Кроме того, подписывайтесь на меня здесь или на @ alt227Joydeep, чтобы увидеть больше моих статей. Вы также можете написать мне в Твиттере, если хотите обсудить. Я был бы более чем счастлив помочь.