Взгляд на генеративные алгоритмы

Кластеризация с использованием метода K-средних - один из самых простых алгоритмов, который также оказался довольно надежным. Если вы хотите выполнить машинное обучение для некоторых немаркированных данных, вам следует рассмотреть кластеризацию K-средних в качестве первого предпочтительного алгоритма. Сказав это, есть некоторые фундаментальные проблемы с кластеризацией K-средних. Начнем с того, что кластеризация K-средних не имеет какой-либо математической основы, что является нормой для общих алгоритмов машинного обучения. Кроме того, в реальном мире видно, что K-среднее имеет тенденцию к кластеризации до локальных минимумов. Следовательно, мы рассмотрим максимизацию ожидания, которая является своего рода обобщением кластеризации K-средних.

Максимизация ожиданий относится к гауссовым моделям, которые являются скорее способом мышления и моделирования, чем конкретным алгоритмом. Кластеры моделируются как распределения Гаусса, а не их средствами. В таких случаях происходит соответствие между всеми точками данных и всеми кластерами, а не соответствие между каждой точкой данных и ее собственным кластером, как в случае кластеризации K-средних. Таким образом, мы также рассматриваем случаи, когда между различными кластерами существует перекрытие.

Максимизация ожиданий работает так же, как K-средние, за исключением того, что данные назначаются каждому кластеру с весами, которые являются мягкими вероятностями, а не расстояниями. Преимущество состоит в том, что модель становится генеративной, поскольку мы определяем распределение вероятностей для каждой модели.



Как правило, мы сталкиваемся с большим количеством измерений в наших функциях, и поэтому мы будем использовать многомерный гауссиан, который показан в форме ниже.

Σ is the covariance matrix
μ is the mean vector

Теперь, чтобы получить значения nu и sigma, вам просто нужно получить оценки максимального правдоподобия, которые можно легко вычислить ниже.

Алгоритм ЭМ-обучения состоит из следующих шагов.

  1. E-step: делается первоначальное предположение для параметров модели и создается распределение вероятностей.
  2. В модель вводятся новые наблюдаемые данные.
  3. M-шаг: распределение вероятностей E-шага изменяется и модифицируется для включения новых данных.
  4. Вышеупомянутый процесс повторяется до тех пор, пока не останется изменений между E-шагом и M-шагом.

Доказано, что этот алгоритм сходится.

Приложения

  1. Так как результирующее распределение вероятностей можно рассматривать как объединенное распределение вероятностей нескольких гауссиан, следовательно, его можно использовать для разделения смешанных сигналов.
  2. Алгоритм EM представляет собой алгоритм оценки максимального правдоподобия и, следовательно, может использоваться для оценки скрытых марковских моделей и многих других применений.


И наконец, поскольку алгоритм EM используется для нахождения распределения вероятностей, он может быть очень медленным даже на самом быстром компьютере. В таких случаях, в зависимости от задачи, может иметь смысл использовать более простой алгоритм.

Если вы нашли этот пост полезным, нажмите кнопку хлопков. Кроме того, подписывайтесь на меня здесь или на @ alt227Joydeep, чтобы увидеть больше моих статей. Вы также можете написать мне в Твиттере, если хотите обсудить. Я был бы более чем счастлив помочь.