Неконтролируемое обучение: кластеризация с использованием гауссовской смешанной модели (GMM)

Кластеризация — это фундаментальная задача неконтролируемого машинного обучения, которая включает в себя группировку точек данных на основе их сходства. Смешанная модель Гаусса (GMM) — это популярный метод кластеризации, который моделирует данные как смесь распределений Гаусса. GMM — это вероятностный метод кластеризации, который присваивает распределение вероятностей каждому кластеру, что обеспечивает более гибкую и точную кластеризацию, чем другие методы. GMM может моделировать кластеры сложной формы и обрабатывать перекрывающиеся кластеры. GMM также полезен для оценки плотности, которая включает оценку распределения вероятностей набора точек данных.

В этом уроке мы рассмотрим теоретические основы GMM и его реализацию в Python с использованием библиотеки scikit-learn. Мы также обсудим примеры и приложения GMM в сегментации изображений и сегментации клиентов. Наконец, мы рассмотрим ограничения и расширения GMM, включая его чувствительность к шуму и выбросам, а также рассмотрим альтернативные методы кластеризации.

К концу этого руководства вы должны хорошо понимать, как работает GMM, как реализовать его в Python и как использовать его для кластеризации и оценки плотности. Вы также должны быть знакомы с преимуществами и ограничениями GMM и с тем, как выбрать подходящий метод кластеризации для ваших данных и целей. Этот учебник подходит для всех, кто имеет базовые знания о Python и машинном обучении.

🦊Если вы хотите узнать больше о кластеризации в неконтролируемом обучении, вам может быть интересно прочитать мою другую статью «Методы кластеризации 101: Введение в неконтролируемые методы обучения». В этом руководстве представлен всесторонний обзор. различных методов кластеризации, включая иерархическую кластеризацию, кластеризацию на основе плотности и кластеризацию на основе моделей, и обсуждают их преимущества и недостатки. В нем также рассматриваются такие темы, как оценка и выбор кластера, и приводятся примеры приложений кластеризации в различных областях.

Введение

Кластеризация — это широко используемый метод обучения без учителя, целью которого является группировка точек данных в отдельные кластеры на основе их сходства. Кластеризацию можно использовать для различных приложений, таких как сегментация изображений, сегментация клиентов, обнаружение аномалий и многое другое. Одним из популярных алгоритмов кластеризации является Модель смеси Гаусса (GMM), которая основана на предположении, что каждый кластер генерируется из смеси распределений Гаусса.

GMM — это вероятностная модель, которая может фиксировать сложные закономерности в данных и назначать каждую точку данных соответствующему кластеру с оценкой вероятности. GMM также может обрабатывать данные, которые не являются линейно разделимыми или имеют перекрывающиеся кластеры, что делает его универсальным и мощным алгоритмом кластеризации.

В этом руководстве мы предоставим подробный обзор кластеризации с помощью GMM, включая теоретические основы, алгоритм, реализацию на Python и примеры его приложений. Мы также объясним математику, лежащую в основе GMM, включая функцию плотности вероятности, многомерное распределение Гаусса, смешанные модели, алгоритм максимизации ожидания (EM) и оценку максимального правдоподобия (MLE).

К концу этого руководства у вас должно быть четкое представление о том, как работает GMM и как реализовать его в Python для кластеризации ваших собственных наборов данных. Итак, приступим!

🔍 Теоретическая база

📌 Функция плотности вероятности (PDF)

В теории вероятностей функция плотности вероятности (PDF) — это функция, описывающая вероятность того, что непрерывная случайная величина примет определенное значение или диапазон значений. PDF случайной величины X, обозначаемой как f(x), должен удовлетворять следующим свойствам:

f(x) неотрицательна для всех значений x.
Интеграл от f(x) по всему диапазону X равен 1, т. е. ∫f(x)dx = 1.

PDF можно использовать для вычисления вероятности того, что случайная величина X попадает в определенный диапазон (a, b), путем интегрирования f(x) по этому диапазону:

Pr(a ≤ X ≤ b) = ∫[a,b] f(x)dx

📌 Многомерное распределение Гаусса

Многомерное распределение Гаусса, также известное как многомерное нормальное распределение, представляет собой распределение вероятностей по векторам вещественных переменных. PDF многомерного распределения Гаусса определяется как:

f(x | μ, Σ) = (1 / ((2π)^(d/2) |Σ|⁰.5)) * exp(-(x-μ)ᵀΣ^(-1)(x-μ) / 2)

где x — d-мерный вектор, μ — вектор среднего, Σ — ковариационная матрица, |Σ| является определителем ковариационной матрицы.

Многомерное распределение Гаусса характеризуется своим средним значением и ковариационной матрицей, которые описывают центр и разброс распределения соответственно. Средний вектор μ представляет собой центр распределения, а ковариационная матрица Σ описывает распространение распределения в каждом направлении.

📌 Смешанные модели

Смешанная модель — это вероятностная модель, которая представляет распределение как смесь более простых распределений компонентов. В контексте кластеризации смешанная модель может использоваться для представления распределения точек данных в виде смеси гауссовских распределений, где каждое гауссовское распределение представляет отдельный кластер.

Формально смешанная модель определяется следующим образом:

f(x | θ) = Σᵢ wᵢ * fᵢ(x | θᵢ)

где θ — набор параметров, fᵢ(x | θᵢ) — функция плотности компонентов, wᵢ — весовой параметр для каждого компонента, а Σᵢ wᵢ = 1.

В случае GMM каждая функция плотности компонентов представляет собой многомерное распределение Гаусса, а весовые параметры представляют долю точек данных, назначенных каждому кластеру.

📌 Алгоритм максимизации ожидания (EM)

Алгоритм максимизации ожиданий (EM) — это итерационный метод, используемый для оценки параметров статистической модели, включающей скрытые переменные. В контексте GMM скрытые переменные представляют назначение каждой точки данных определенному кластеру.

Алгоритм EM для GMM можно обобщить в два этапа:

Шаг ожидания (E-шаг): вычислить ожидаемое значение скрытых переменных с учетом текущей оценки параметров модели.
Шаг максимизации (M-шаг): Обновите параметры модели, чтобы максимизировать вероятность наблюдаемых данных с учетом ожидаемых значений скрытых переменных.

Алгоритм EM гарантированно сходится к локальному максимуму функции правдоподобия, но может не сходиться к глобальному максимуму.

📌 Оценка максимального правдоподобия (MLE)

Оценка максимального правдоподобия (MLE) — это метод, используемый для оценки параметров статистической модели путем максимизации правдоподобия наблюдаемых данных с учетом параметров модели. В контексте GMM функция правдоподобия определяется следующим образом:

L(θ | X) = Πᵢ f(xᵢ | θ)

где θ представляет параметры модели, X = {x₁, x₂, …, xₙ} — наблюдаемые данные, а f (xᵢ | θ) — функция плотности вероятности GMM.

Функция логарифмического правдоподобия может быть записана как:

l (θ | X) = Σᵢ log f (xᵢ | θ)

Оценка максимального правдоподобия параметров модели получается путем максимизации функции логарифмического правдоподобия по отношению к параметрам модели. Это можно сделать с помощью алгоритма EM или других методов оптимизации.

В случае GMM параметры модели включают в себя средние векторы, ковариационные матрицы и весовые параметры составных распределений Гаусса.

В следующем разделе мы объясним, как концепции, рассмотренные в этом разделе, используются в алгоритме GMM для кластеризации.

📌 Алгоритм GMM

Алгоритм GMM для кластеризации можно свести к следующим шагам:

Предварительная обработка данных: нормализуйте данные, чтобы гарантировать, что каждая функция имеет нулевое среднее значение и единичную дисперсию.
Инициализация параметров: выберите начальное предположение для средних векторов, ковариационных матриц и весовых параметров составных распределений Гаусса. Одним из распространенных способов инициализации средних значений является использование алгоритма K-средних.
Алгоритм ЭМ для GMM:
Шаг ожидания (E-шаг): вычислить апостериорную вероятность каждой точки данных, принадлежащей каждому кластеру, на основе текущей оценки параметров модели.
Шаг максимизации (M-шаг): Обновите параметры модели, чтобы максимизировать ожидаемое полное логарифмическое правдоподобие наблюдаемых данных с учетом апостериорных вероятностей, полученных на E-шаге. Обновленные параметры получаются с использованием оценки максимального правдоподобия (MLE).
Повторяйте E-шаг и M-шаг до тех пор, пока не будет достигнута сходимость, то есть логарифмическая вероятность наблюдаемых данных больше не будет значительно увеличиваться или будет достигнуто максимальное количество итераций.
Определение оптимального количества кластеров: используйте критерий выбора модели, такой как байесовский информационный критерий (BIC) или информационный критерий Акаике (AIC), чтобы определить оптимальное количество кластеров.

📌 Шаг ожидания (E-шаг)

На шаге E мы вычисляем апостериорную вероятность каждой точки данных, принадлежащей каждому кластеру, с учетом текущей оценки параметров модели. Это также известно как ответственность каждого кластера за каждую точку данных.

Апостериорная вероятность того, что точка данных i принадлежит кластеру j, определяется как:

rᵢⱼ = πⱼ * N(xᵢ | μⱼ, Σⱼ) / Σₖ πₖ * N(xᵢ | μₖ, Σₖ)

где rᵢⱼ — апостериорная вероятность, πⱼ — весовой параметр кластера j, N (xᵢ | μⱼ, Σⱼ) — функция плотности вероятности многомерного гауссовского распределения для кластера j, оцениваемая в точке данных i, а знаменатель — константа нормализации это гарантирует, что сумма апостериорных вероятностей для каждой точки данных составляет 1.

📌 Шаг максимизации (М-шаг)

На M-этапе мы обновляем параметры модели, чтобы максимизировать ожидаемую полную логарифмическую вероятность наблюдаемых данных с учетом апостериорных вероятностей, полученных на E-этапе. Полное логарифмическое правдоподобие определяется как:

L (θ | X, Z) = Σᵢ Σⱼ rᵢⱼ log (πⱼ * N (xᵢ | μⱼ, Σⱼ))

где θ представляет собой параметры модели, X — наблюдаемые данные, а Z — скрытые переменные (т. е. апостериорные вероятности, вычисленные на этапе E).

Обновленные параметры получаются с помощью MLE. MLE-оценка весового параметра πⱼ представляет собой просто сумму апостериорных вероятностей всех точек данных, присвоенных кластеру j:

πⱼ = Σᵢ rᵢⱼ / n

где n — общее количество точек данных.

Оценка MLE среднего вектора μⱼ представляет собой средневзвешенное значение точек данных, присвоенных кластеру j:

μⱼ = Σᵢ rᵢⱼ xᵢ / Σᵢ rᵢⱼ

Оценка MLE ковариационной матрицы Σⱼ представляет собой взвешенную ковариационную матрицу точек данных, присвоенных кластеру j:

Σⱼ = Σᵢ rᵢⱼ (xᵢ — μⱼ)(xᵢ — μⱼ)ᵀ / Σᵢ rᵢⱼ

📌 Конвергенция и инициализация

Алгоритм EM для GMM гарантированно сходится к локальному максимуму функции правдоподобия, но может не сходиться к глобальному максимуму. Поэтому алгоритм часто запускается несколько раз с разными инициализациями, и выбирается результат с наибольшей вероятностью.

Инициализация параметров GMM может оказать существенное влияние на сходимость и качество кластеризации. Одним из распространенных способов инициализации средств является использование алгоритма K-средних, который группирует данные в K кластеров и использует центры кластеров в качестве начальных средств для GMM.

🐍 Реализация GMM на Python

В этом разделе мы покажем вам, как реализовать GMM для кластеризации в Python с помощью библиотеки scikit-learn. В качестве примера мы будем использовать набор данных цветка ириса.

🦊 Если вы хотите узнать больше о доступных наборах данных в scikit-learn и о том, как выбрать правильный набор данных для моделирования машинного обучения, вы можете прочитать «Выбор правильного набора данных для моделирования машинного обучения с помощью scikit-learn: обзор самые популярные наборы данных».

📌 Загрузка и подготовка данных

Во-первых, нам нужно загрузить набор данных радужной оболочки и подготовить данные для кластеризации. Мы будем использовать функции длины и ширины чашелистиков для простоты.

from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data[:, :2]  # use only first two features (sepal length and width)

Затем мы нормализуем данные, используя нормализацию Z-оценки, чтобы гарантировать, что каждая функция имеет нулевое среднее значение и единичную дисперсию.

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_norm = scaler.fit_transform(X)

📌 Определение модели GMM и гиперпараметров

Мы будем использовать реализацию GMM scikit-learn, которую можно импортировать из модуля mixture. Чтобы создать модель GMM, нам нужно указать количество компонентов (то есть кластеров) и тип ковариации.

from sklearn.mixture import GaussianMixture

n_components = 3  # number of clusters
covariance_type = 'full'  # each component has its own general covariance matrix
gmm = GaussianMixture(n_components=n_components, covariance_type=covariance_type)

Мы также можем указать другие гиперпараметры, такие как максимальное количество итераций и допуск сходимости. По умолчанию scikit-learn использует алгоритм EM для оценки параметров GMM.

max_iter = 100  # maximum number of iterations
tol = 1e-3  # convergence tolerance
gmm.set_params(max_iter=max_iter, tol=tol)

Чтобы подогнать модель GMM к данным, мы просто вызываем метод fit для объекта GMM.

gmm.fit(X_norm)

Это оценит параметры GMM с использованием алгоритма EM и назначит каждую точку данных кластеру на основе наивысшей апостериорной вероятности.

📌 Визуализация кластеров

Чтобы визуализировать кластеры, мы можем нанести точки данных разными цветами, представляющими назначенные кластеры. Мы также можем построить контуры распределения Гаусса для каждого кластера.

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap

# Define colormap
cmap = ListedColormap(['r', 'g', 'b'])

# Create meshgrid for contour plot
x_min, x_max = X_norm[:, 0].min() - 1, X_norm[:, 0].max() + 1
y_min, y_max = X_norm[:, 1].min() - 1, X_norm[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01), np.arange(y_min, y_max, 0.01))
Z = gmm.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

# Plot the data points and clusters
plt.figure(figsize=(8, 6))
plt.contourf(xx, yy, Z, cmap=cmap, alpha=0.3)
plt.scatter(X_norm[:, 0], X_norm[:, 1], c=gmm.predict(X_norm), cmap=cmap)
plt.xlabel('Sepal length (normalized)')
plt.ylabel('Sepal width (normalized)')
plt.title('GMM clustering with {} clusters'.format(n_components))
plt.show()

Это покажет точечную диаграмму точек данных с разными цветами, представляющими назначенные кластеры, а также контуры распределения Гаусса для каждого кластера.

📌 Определение оптимального количества кластеров

Одной из проблем кластеризации является определение оптимального количества кластеров. Один из способов сделать это — использовать байесовский информационный критерий (BIC) или информационный критерий Акаике (AIC), которые штрафуют модели с большим количеством параметров. Чем ниже BIC или AIC, тем лучше модель.

# Compute BIC and AIC for different number of clusters
n_components_range = range(1, 11)
bic = []
aic = []
for n_components in n_components_range:
    gmm = GaussianMixture(n_components=n_components, covariance_type=covariance_type)
    gmm.fit(X_norm)
    bic.append(gmm.bic(X_norm))
    aic.append(gmm.aic(X_norm))

# Plot BIC and AIC as a function of the number of clusters
plt.figure(figsize=(8, 6))
plt.plot(n_components_range, bic, label='BIC')
plt.plot(n_components_range, aic, label='AIC')
plt.legend()
plt.xlabel('Number of clusters')
plt.ylabel('Criterion value')
plt.title('BIC and AIC for GMM')
plt.show()

Это покажет график BIC и AIC в зависимости от количества кластеров. Оптимальное количество кластеров — это то, которое минимизирует BIC или AIC.

В следующем разделе мы покажем несколько примеров использования GMM для кластеризации.

Примеры и приложения

GMM — это мощный алгоритм кластеризации, который можно применять к широкому спектру типов данных и доменов. В этом разделе мы покажем несколько примеров и приложений GMM для кластеризации.

💡 Пример 1: Кластеризация синтетических данных

Чтобы проиллюстрировать производительность GMM для кластеризации, мы сгенерируем некоторые синтетические данные и сгруппируем их с помощью GMM. Мы создадим точки данных из трех разных многомерных распределений Гаусса с разными средними и ковариационными матрицами и добавим немного шума.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.mixture import GaussianMixture

# Generate synthetic data
n_samples = 1000
centers = [[1, 1], [-1, -1], [1, -1]]
X, y_true = make_blobs(n_samples=n_samples, centers=centers, cluster_std=0.4, random_state=0)

# Add some noise
np.random.seed(0)
X = np.vstack((X, 3 * np.random.randn(20, 2)))

# Normalize the data
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_norm = scaler.fit_transform(X)

# Cluster the data using GMM
n_components = 3
covariance_type = 'full'
gmm = GaussianMixture(n_components=n_components, covariance_type=covariance_type)
gmm.fit(X_norm)

# Plot the data points and clusters
plt.figure(figsize=(8, 6))
plt.scatter(X_norm[:, 0], X_norm[:, 1], c=gmm.predict(X_norm), cmap='viridis')
plt.xlabel('Feature 1 (normalized)')
plt.ylabel('Feature 2 (normalized)')
plt.title('GMM clustering with {} clusters'.format(n_components))
plt.show()

💡 Пример 2: Сегментация изображения

GMM также можно использовать для сегментации изображения, которая включает в себя разделение изображения на несколько областей на основе сходства значений пикселей. Каждая область соответствует кластеру в GMM.

import numpy as np
import matplotlib.pyplot as plt
from skimage import data, segmentation, color, graph
from sklearn.mixture import GaussianMixture

# Load an image
img = data.coffee()

# Convert the image to grayscale
img_gray = color.rgb2gray(img)

# Normalize the data
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_norm = scaler.fit_transform(img_gray.reshape(-1, 1))

# Cluster the data using GMM
n_components = 3
covariance_type = 'full'
gmm = GaussianMixture(n_components=n_components, covariance_type=covariance_type)
gmm.fit(X_norm)

# Segment the image based on the clusters
labels = gmm.predict(X_norm).reshape(img_gray.shape)

# Create a graph and merge small regions
g = graph.RAG(labels)
labels = graph.cut_normalized(labels, g)

# Plot the original image and the segmented image
plt.figure(figsize=(10, 5))
plt.subplot(121)
plt.imshow(img)
plt.axis('off')
plt.title('Original image')
plt.subplot(122)
plt.imshow(color.label2rgb(labels, img, kind='avg'))
plt.axis('off')
plt.title('Segmented image ({} clusters)'.format(n_components))
plt.show()

Это покажет исходное изображение и сегментированное изображение, где каждая область соответствует кластеру в GMM.

💡 Пример 3: Сегментация клиентов

GMM также можно использовать для сегментации клиентов, которая включает в себя кластеризацию клиентов на основе их демографических и поведенческих данных. Это может помочь компаниям определить различные сегменты клиентов со схожими потребностями и предпочтениями и соответствующим образом адаптировать свои маркетинговые стратегии.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.mixture import GaussianMixture
from sklearn.preprocessing import StandardScaler

# Generate some imaginary customer data
age = np.random.randint(18, 65, size=(1000,))
income = np.random.normal(50000, 10000, size=(1000,))
spending = np.random.normal(1000, 500, size=(1000,))
data = np.column_stack((age, income, spending))

# Normalize the data
scaler = StandardScaler()
X_norm = scaler.fit_transform(data)

# Determine the optimal number of clusters using BIC
n_components_range = range(1, 11)
bic = []
for n_components in n_components_range:
    gmm = GaussianMixture(n_components=n_components, covariance_type='full')
    gmm.fit(X_norm)
    bic.append(gmm.bic(X_norm))

# Plot the BIC as a function of the number of clusters
plt.figure(figsize=(8, 6))
plt.plot(n_components_range, bic, label='BIC')
plt.legend()
plt.xlabel('Number of clusters')
plt.ylabel('BIC value')
plt.title('BIC for customer segmentation')
plt.show()

Это покажет график BIC в зависимости от количества кластеров. Оптимальное количество кластеров — это то, которое минимизирует BIC.

# Cluster the customers using GMM
n_components = 2
gmm = GaussianMixture(n_components=n_components, covariance_type='full')
gmm.fit(X_norm)
labels = gmm.predict(X_norm)

# Add the cluster labels to the data
df = {'Age': age, 'Income': income, 'Spending': spending, 'Cluster': labels}

# Plot the clusters in a scatter plot
plt.figure(figsize=(8, 6))
plt.scatter(age, income, c=labels, cmap='viridis')
plt.xlabel('Age')
plt.ylabel('Income')
plt.title('Customer segmentation with {} clusters'.format(n_components))
plt.show()

Это покажет точечную диаграмму клиентов с разными цветами, представляющими назначенные кластеры, в зависимости от их возраста и дохода. Компании могут использовать эту информацию для таргетинга на определенные сегменты клиентов с помощью индивидуальных маркетинговых стратегий.

В этом руководстве мы рассмотрели основы кластеризации с помощью Gaussian Mixture Model (GMM). Мы показали, как можно использовать GMM для кластеризации точек данных в несколько компонентов, каждый из которых моделируется многомерным распределением Гаусса. Мы также описали алгоритм EM для GMM и обсудили важность инициализации и сходимости. Наконец, мы продемонстрировали несколько примеров и приложений GMM для кластеризации, включая кластеризацию синтетических данных, сегментацию изображений и сегментацию клиентов.

GMM — это мощный алгоритм кластеризации, который можно применять к широкому спектру типов данных и доменов. Он имеет несколько преимуществ по сравнению с другими алгоритмами кластеризации, включая возможность моделирования несферических и перекрывающихся кластеров, а также возможность оценки неопределенности назначений кластеров. Однако GMM также имеет некоторые ограничения, такие как чувствительность к количеству кластеров и инициализация параметров.

🤔 Ограничения и расширения GMM

📌 Преимущества ГММ

Одним из преимуществ GMM является то, что это вероятностный метод кластеризации. Это означает, что он обеспечивает меру неопределенности в назначениях кластеров. В отличие от других методов кластеризации, таких как метод K-средних, который присваивает каждой точке отдельный кластер, GMM допускает перекрывающиеся кластеры. Это делает GMM более гибким и мощным методом кластеризации.

Еще одним преимуществом GMM является то, что он может моделировать кластеры сложной формы, используя комбинацию распределений Гаусса. Это позволяет более точно группировать данные со сложными или нерегулярными шаблонами.

📌 Недостатки и ограничения GMM

Несмотря на свои преимущества, GMM также имеет некоторые ограничения и недостатки, которые необходимо учитывать. Одним из основных ограничений GMM является его чувствительность к выбору количества кластеров. Если количество кластеров не выбрано тщательно, GMM может легко соответствовать данным. Это может привести к плохим результатам кластеризации и неточным интерпретациям.

GMM также чувствителен к шуму и выбросам. В частности, использование полной ковариационной матрицы в GMM может сделать метод более склонным к переобучению при наличии шума или выбросов. Это связано с тем, что полная ковариационная матрица обеспечивает большую гибкость формы кластеров, что может привести к ложным кластерам, которые захватывают шум или выбросы.

📌 Расширения и альтернативы GMM

Для устранения некоторых ограничений GMM было предложено несколько расширений и альтернатив. Одним из расширений является использование байесовского GMM, который устанавливает априорное распределение количества кластеров и позволяет автоматически определять количество кластеров. Это может избежать необходимости ручного выбора количества кластеров и повысить надежность метода кластеризации.

Другой альтернативой является использование K-средних или других методов кластеризации, менее чувствительных к шуму и выбросам. K-means — это простой и эффективный метод кластеризации, который присваивает каждой точке ближайший центр кластера. Он менее чувствителен к шуму и выбросам, чем GMM, но не может моделировать перекрывающиеся кластеры или кластеры сложной формы.

В дополнение к этим расширениям и альтернативам важно тщательно предварительно обработать данные перед кластеризацией и тщательно выбрать подходящий метод кластеризации на основе характеристик данных и целей анализа.

Дальнейшее чтение

Если вам интересно узнать больше о кластеризации с помощью GMM, вот некоторые ресурсы, которые могут оказаться полезными:

Епископ, CM (2006). Распознавание образов и машинное обучение. Спрингер. В главе 9 рассматривается GMM для кластеризации и дается всесторонняя математическая обработка алгоритма.
Документация Scikit-learn: официальная документация библиотеки scikit-learn содержит подробную информацию о том, как использовать GMM для кластеризации, а также другие алгоритмы кластеризации.
Введение в кластеризацию и смешанные модели Гаусса: учебное пособие Джеффа Колдера, в котором представлено краткое введение в кластеризацию и GMM с примерами кода Python.
Как оценить количество кластеров в ваших данных: статья Джейка ВандерПласа, в которой дается подробное объяснение критериев BIC и AIC для выбора модели и того, как их использовать для оценки количества кластеров в ваших данных.
Кластерный анализ в R: руководство Брайана Каффо, в котором приводится сравнение различных алгоритмов кластеризации, включая GMM, и способы их реализации в R.

🦊Я также приглашаю вас ознакомиться с моими руководствами по контролируемому и неконтролируемому обучению, которые можно найти в следующих списках тем: Темы по контролируемому обучению, Темы по неконтролируемому обучению, и Общие темы машинного обучения.