О программе:
«Кластеризация k-Medoids» сочетает в себе алгоритмы k-Means и алгоритмы сдвига медоидов с целью разделения n-наблюдений на k кластеров, в которых каждое наблюдение принадлежит кластеру с ближайшим медоид. Медоид конечного набора данных — это точка данных (одно из наблюдений) из этого набора, средняя непохожесть которой на все точки данных минимальна.

Ввод:
Функция принимает следующие входные данные:

Метрика взвешивания терминов: метрика, которую следует учитывать при формировании матрицы терминов документа.
Разреженность: разреженность матрицы терминов документа.
K-диапазон: введите два числа, которые передаются как диапазоны медоидов, которые будут учитываться алгоритмом.

Вывод:
Функция создает новый столбец в наборе данных, который содержит предсказанный номер кластера для каждого документа в корпусе. Кроме того, вкладка вывода также содержит оптимальное количество кластеров, возвращаемое алгоритмом, часто встречающиеся слова в каждом кластере и образец матрицы терминов документа.

Применение и интерпретация:
Вывод функции кластеризации k-Medoids может быть интерпретирован в первом случае как представление каждого случая, принадлежащего определенной группе, которая может использоваться либо как переменная ответа, либо как сегментация. переменная для разделения данных на кластеры для дальнейшего анализа. Вторая таблица на странице вывода дает предварительный просмотр того, какие переменные заставили алгоритм идентифицировать похожие шаблоны для формирования каждой группы.
Например, рассмотрим набор данных из двух столбцов A, B со значениями, 2, 3,3,4,6,6,7,7,8,7;6,4,8,7,2,4,3,4,5,6; Для кластеризации k-medoids инициализируйте центры k2 (3,4) и (7,4), чтобы сгруппировать вышеуказанный набор данных в две группы. Вычислите манхэттенское расстояние каждой пары значений относительно двух центров и найдите точки с ближайшим расстоянием, которое для двух центров равно -(3,4), (2,6), (3,8), (4, 7) для кластера 1 и (7,4), (6,2), (6,4), (7,3), (8,5) и (7,6) для кластера 2. Теперь итеративно используйте два другие центральные точки, оценивают распределение кластеров и вычисляют разницу между общей стоимостью оценки кластеров с двумя разными центрами. Если разница больше нуля, то более ранний кластер является лучшим выбором, то есть кластеры, идентифицированные с минимальной общей стоимостью, являются лучшими.