Публикации по теме 'clustering'


DBScan (пространственная кластеризация приложений с шумом на основе плотности)
Давайте начнем с основного, что на самом деле означает это громкое слово - сначала с формального определения КЛАСТЕРИЗАЦИЯ . это процесс изучения набора «точек» и группирования точек в «кластеры» в соответствии с некоторой мерой расстояния. Цель состоит в том, чтобы точки в одном кластере находились на небольшом расстоянии друг от друга, а точки в разных кластерах находились на большом расстоянии друг от друга. Таким образом, в основном немногие из нескольких шаров случайного цвета,..

K-средние и другие алгоритмы кластеризации: краткое введение в Python
Кластеризация - это группировка объектов вместе, чтобы объекты, принадлежащие к одной группе (кластеру), были более похожи друг на друга, чем объекты в других группах (кластерах). В этом вводном руководстве по кластерному анализу мы рассмотрим несколько алгоритмов на Python, чтобы вы могли получить базовое представление об основах кластеризации на реальном наборе данных. Набор данных Для задачи кластеризации мы будем использовать знаменитый набор данных Zachary’s Karate Club ...

Начало работы с НЛП, часть 4 (классификация текстов)
Разделите документы на значимую информацию В наших предыдущих блогах мы видели векторизацию, то есть создание машины для чтения осмысленной информации из группы текстов. Здесь нашей целью является разделение документов на разные категории, то есть классификация, для этого существуют различные подходы. Контролируемое обучение: когда у нас есть документы с меткой, доступной для каждого документа, мы следуем этому подходу. Неконтролируемое обучение: классифицировать документы без..

Неконтролируемое обучение с кластерным анализом и приложением
Во многих реальных задачах мы видим данные, которые не имеют меток классов для функций обучения, такие типы задач известны как задачи без учителя, и нам нужно использовать методы обучения без учителя для построения моделей для этих задач. Несколько примеров из них включают группировку документов, музыки и фильмов по разным темам или поиск клиентов с общими интересами на основе общего покупательского поведения в качестве основы механизма рекомендаций. Кластеризация Кластеризация — один из..

Алгоритм кластеризации - распространение сходства
Кластеризация — это неконтролируемый метод машинного обучения. Его можно широко использовать во многих секторах, таких как ИТ, здравоохранение, автомобилестроение и т. д. Он собирает и идентифицирует данные на основе сходства, формы, размера, поведения и т. д. Обычно используется для классификации данных в структуры, которые легко понять и манипулировать. Также его можно определить как разделение наборов данных на определенное количество кластеров таким образом, чтобы точка данных..

Алгоритм K-NN объясняется на простом примере.
Алгоритм K-ближайших соседей, обычно называемый просто KNN, представляет собой алгоритм классификации. А классификация определяет, к какой группе должен быть отнесен элемент. Например, тип опухоли. Чтобы KNN работал, во-первых, нам нужны примеры с правильной группой, и это будет использоваться для прогнозирования будущих групп. то есть: в какой группе находятся будущие данные. Мы обычно упоминаем их как справочные данные. K-NN — это контролируемый алгоритм машинного обучения. интуиция,..

Идентификация субтраекторий на основе временных интервалов с помощью DBScan
В прошлом посте я упомянул об остановках, но не дал подробностей о них. Основная идея состоит в том, что траектория может быть разбита на несколько подтраекторий. Наиболее распространенные подходы к поиску подтраекторий основаны на временных остановках и типе транспорта. Причина такой классификации заключается в том, что анализ и информация, собранные по траекториям, пройденным автомобилем, значительно отличаются от траекторий, пройденных велосипедом. Остановки и время также могут давать..