Публикации по теме 'clustering'


Кластеризация - простое объяснение и реализация на Python.
Давайте сначала разберемся с некоторыми важными концепциями. Евклидово расстояние Сходство между наблюдениями измеряется с помощью показателя, называемого Евклидово расстояние . Евклидово расстояние между двумя точками (x1, y1) и (x2, y2) рассчитывается следующим образом: Итак, на приведенном выше рисунке евклидово расстояние между двумя точками (1, 4) и (4, 1) равно: Центроид Центр кластера называется центроидом. Он рассчитывается как среднее значение координат..

Самоорганизующиеся карты (SOM) — Введено, объяснено и реализовано
О SOM Представленные финским профессором Теуво Кохоненом в 1980-х годах, самоорганизующиеся карты или SOM предоставляют средства для более низкоразмерного и дискретного представления, называемого картой , наборов данных, сохраняя при этом топологию данных. Цель состоит в том, чтобы изучить карту, которая одинаково реагирует на одинаковые входные данные. Он изучается как массив весов, который интерпретируется как массив нейронов, где каждый нейрон сам по себе является вектором с теми..

Tableau + Python: TabPy и географическая кластеризация
Простой способ исследования данных с помощью кластеризации K-средних. Это краткое руководство о том, как выполнить кластеризацию K-средних на карте с помощью расширения Tableau: TabPy. TabPy можно скачать здесь или, если вы используете conda: conda install -c anaconda tabpy-server Есть ряд статей о том, как установить и запустить tabpy server, но я лично сталкиваюсь с двумя проблемами: PermissionError: [WinError 5] Доступ запрещен . Разрешено здесь Невозможно..

Кластеризация K-средних: введение
Исследование и внедрение K-средних Кластеризация K-средних — это неконтролируемый алгоритм машинного обучения. Поясним это предложение немного подробнее. Цель кластеризации состоит в том, чтобы разделить данные на однородные кластеры. Точки в каждом кластере больше похожи друг на друга, чем на точки в других кластерах. Неконтролируемое машинное обучение обучается на наборе данных без каких-либо меток. Цель состоит в том, чтобы обнаружить закономерности или отношения в данных,..

Распутывание закономерностей: изучение увлекательного мира алгоритмов кластеризации
Распутывание закономерностей: изучение увлекательного мира алгоритмов кластеризации Кластеризация — это популярный метод машинного обучения, используемый для группировки точек данных на основе их сходства. Это тип метода обучения без учителя, в котором нет предопределенной выходной переменной или метки. Вместо этого алгоритм пытается обнаружить закономерности и структуру данных, группируя схожие точки данных. Что такое кластеризация? Кластеризация — это процесс группировки набора..

Кластеризация в управлении капиталом: оригинальный способ визуализации поведения клиентов
Управление капиталом состоит в управлении инвестициями от имени других. Чтобы предоставлять наилучшие услуги, управляющим активами крайне важно понимать поведение клиентов. Вот почему в частных банках принято искать закономерности в данных клиентов. Кластеризация является распространенным методом для достижения этой цели. Однако одной из ключевых проблем при таком подходе является отображение и интерпретация результатов. В этой статье я кратко расскажу о кластеризации и, самое главное,..

Поиск подобия, часть 2: квантизация произведения
В первой части этой серии статей мы рассмотрели kNN и инвертированную структуру файлового индекса для выполнения поиска по сходству. Оба метода имеют один и тот же недостаток: они полностью хранят векторы базы данных в памяти. Этот аспект очень важен для больших наборов данных и когда у нас ограниченная оперативная память. В этой статье мы попытаемся решить эту проблему, рассмотрев еще одну мощную технику, которая называется квантование продукта . Поиск по..