Кластеризация K-средних и ее реальные варианты использования в области безопасности.

Кластеризация или кластерный анализ – это метод машинного обучения, который группирует немаркированный набор данных. Его можно определить как способ группировки точек данных в разные кластеры, состоящие из похожих точек данных.

Техника кластеризации может широко использоваться в различных задачах, некоторые распространенные методы кластеризации:

1) Сегментация рынка

2)Статистический анализ данных

3)Анализ социальных сетей

4) Сегментация изображения

5) обнаружение аномалий и т. д.

это некоторые распространенные применения метода кластеризации, помимо этих кластерных применений в некоторых распространенных случаях реального слова, используется ли он в Uber для экономии времени пользователей, означает, что он создает группу кластеров, где много толпы, также Netflix использует метод кластеризации рекомендовать фильмы и веб-сериалы своим пользователям в соответствии с их историей и интересом. Итак, в реальных случаях существует множество применений кластеризации.

Как мы знаем, для решения любого типа проблемы у нас есть алгоритм для этого определенного типа проблемы, для решения проблемы кластеризации у нас есть алгоритм кластеризации K-mean.

Что такое K-mean Clusterin ..?

(также k обозначает номер кластера)

K-means – это простой итеративный алгоритм кластеризации. Начиная со случайно выбранных K центроидов, алгоритм продолжает обновлять центроиды и их кластеры до равновесия, минимизируя общую дисперсию внутри кластера. Он в основном используется в сценариях с вещественными признаками, потому что он полагается на евклидово расстояние для обнаружения центроидов кластера.

Как работает кластер k-mean?

Кластеризация k-mean подпадает под неконтролируемое машинное обучение, в котором мы не знаем о цели.

При кластеризации цель модели состоит в том, чтобы сгруппировать доступные данные в кластеры — группы наблюдений, которые в некотором смысле похожи.

мы можем видеть, как это работает..

Случаи использования кластеризации K-Mean в домене безопасности

1. Автоматическая кластеризация it Alerts

Компоненты технологии инфраструктуры крупного предприятия, такие как сеть, хранилище или база данных, генерируют большие объемы предупреждающих сообщений. Поскольку предупреждающие сообщения потенциально указывают на операционные проблемы, их необходимо проверять вручную для установления приоритетов для последующих процессов.

2. Классификация документов о преступлении

Кластеризуйте документы по нескольким категориям на основе тегов, тем и содержимого документа. Это очень стандартная задача классификации, и алгоритм k-средних очень подходит для этой цели. Начальная обработка документов необходима для представления каждого документа в виде вектора и использования частоты терминов для определения часто используемых терминов, которые помогают классифицировать документ.

3. Киберпрофилирование преступников

Киберпрофилирование — это процесс сбора данных от отдельных лиц и групп для выявления существенных корреляций. Идея киберпрофилирования основана на профилях преступников, которые предоставляют информацию о следственном отделе для классификации типов преступников, которые находились на месте преступления.

4) Спам-фильтр

Вы знаете папку нежелательной почты в почтовом ящике? Это место, где электронные письма были идентифицированы алгоритмом как спам.

Как работает кластеризация. Методы кластеризации K-средних доказали свою эффективность в выявлении спама. Это работает путем просмотра различных разделов электронной почты (заголовок, отправитель и содержимое). Затем данные группируются.

Спасибо, что прочитали эту статью 🙌😊.

Продолжайте учиться, продолжайте делиться….✨