👉 Кластеризация K-средних — это алгоритм обучения без учителя, который группирует немаркированный набор данных в разные кластеры. Здесь K определяет количество предопределенных кластеров, которые необходимо создать в процессе, например, если K = 2, будет два кластера, а для K = 3 будет три кластера и так далее.

Кластеризация методом K-средних – это итеративный алгоритм, который делит немаркированный набор данных на k разных кластеров таким образом, что каждый набор данных принадлежит только к одной группе со схожими свойствами.⚡

Как работает алгоритм кластеризации K-средних?

👉 K-means — это алгоритм на основе центроида или алгоритм на основе расстояния, в котором мы вычисляем расстояния, чтобы назначить точку кластеру. В K-Means каждый кластер связан с центроидом.

Основная цель алгоритма K-средних – минимизировать сумму расстояний между точками и центроидами соответствующих кластеров⚡.

💠 Алгоритм работы следующий:

  1. Сначала мы случайным образом инициализируем k точек, называемых средними значениями.
  2. Мы классифицируем каждый элемент по его ближайшему среднему значению и обновляем координаты среднего значения, которые являются средними значениями элементов, классифицированных в этом среднем на данный момент.
  3. Мы повторяем процесс для заданного количества итераций, и в конце у нас есть наши кластеры.

Система обнаружения сетевых вторжений на основе алгоритма K-средних

👉 В наше время информационные технологии (ИТ) играют важную роль в различных областях. И поэтому роль безопасности очень важна для контроля и поддержки потока действий в сети. Обнаружение вторжений (ID) — это своего рода система управления безопасностью компьютеров и сетей. В ID используется множество подходов и методов.

Здесь мы собираемся обсудить полное распознавание образов и производительность алгоритма машинного обучения для четырех категорий атак, таких как атаки типа «отказ в обслуживании» (DoS) (отклонение законного запроса к системе), >Атаки с зондированием (атаки со сбором информации), атаки типа «пользователь-корневой доступ» (U2R) (неавторизованный доступ к локальному суперпользователю) и удаленный доступ к локальному ) атаки (несанкционированный локальный доступ с удаленного компьютера).⚡

Безопасность стала важнейшим вопросом для компьютерных систем. IDS может защитить нашу компьютерную сеть. В последние годы для IDS были предложены различные алгоритмы классификации и кластеризации.

🔹Кластеризация, основанная на измерениях расстояния, выполненных для объектов, и классификации объектов (вторжений) в кластеры. В отличие от классификации, классификация из-за отсутствия информации о метке обучающих данных представляет собой процесс обучения без присмотра. Для обнаружения аномалий мы можем использовать сварку и углубленный анализ, чтобы направлять модель ID. Измерение расстояния или подобия играет важную роль при объединении наблюдений в однородные группы. Измерение сродства Жаккарда, самая длинная шкала общего порядка (LCS), важно, поскольку событие должно пробудить размер, чтобы определить, является ли он нормальным или ненормальным.

🔹Эвклидово расстояние приблизительно равно двум векторам X и Y в пространственном евклидовом n-измерении, размер которого широко используется для векторного пространства. Евклидово расстояние можно определить как квадратный корень из общей разности одного и того же векторного измерения. Наконец, алгоритмы группировки и классификации должны быть эффективно и масштабно направлены, чтобы можно было обрабатывать размерность сетевых данных и неоднородность.

Мы используем алгоритм K-средних для кластеризации подключений к наборам данных. Алгоритм K-средних является одним из широко признанных инструментов кластеризации. K-means группирует данные в соответствии со значениями их характеристик в указанное пользователем количество K различных кластеров. Данные, отнесенные к одному и тому же кластеру, имеют одинаковые значения характеристик. K, положительное целое число, обозначающее количество кластеров, необходимо указать заранее. Шаги, задействованные в алгоритме K-средних, даны последовательно:

1. K точек, обозначающих данные для кластеризации, помещаются в пространство. Эти точки обозначают центроиды первичной группы.

2. Данные присваиваются группе, примыкающей к центроиду.

3. Положения всех K центроидов пересчитываются, как только все данные присвоены.

4. Повторяйте шаги 2 и 3, пока центр тяжести не изменится.

Это приводит к разделению данных на группы. Разделение предварительно обработанного набора данных выполняется с использованием алгоритма K-средних со значением K, равным 5. Поскольку у нас есть набор данных (взятый в качестве примера любого набора данных), который содержит обычные и 4 категории атак, такие как DoS, Probe, U2R, R2L.⚡

ВЫВОД

Приведенный выше сравнительный анализ техники гибридного машинного обучения для обнаружения атак типа «отказ в обслуживании» (DoS), атак с зондированием (Probe), атак типа «пользователь-корень» (U2R) и удаленно-локальных (R2L) атак. Мы можем узнать аналогичную природу атакующей группы, используя алгоритм K-средних. А затем мы используем алгоритм Random Forest для классификации обычных и атакующих соединений.✨

k-means обычно можно применять к данным, которые имеют меньшее количество измерений, являются числовыми и непрерывными. подумайте о сценарии, в котором вы хотите сделать группы похожих вещей из случайно распределенного набора вещей; k-means очень подходит для таких сценариев.

Будущая работа включает в себя анализ с другими алгоритмами интеллектуального анализа данных для классификации категорий атак и того, как они могут обнаруживать другие наборы данных среды реального времени.

В этой статье я обсудил некоторые варианты использования кластеризации k-средних🎲 в области безопасности. Надеюсь, вам понравится, и вы получите удовольствие от чтения этой статьи, и свяжитесь со мной в Linkedin, чтобы узнать больше о таких технических концепциях и задачах.⚡

Спасибо🌻