Введение

В современном мире Интернет стал частью нашей повседневной жизни, это означает, что теперь мы используем Интернет для выполнения наших повседневных задач, таких как покупки, развлечения, поиск услуг, путешествия и многое другое, и самое лучшее в этом - ни одна компания не владеет всем Интернетом. управляют разные люди.

Но есть одна большая проблема с тем, чтобы никому не принадлежать: никто не может защитить нас от опасных и вредных вещей, таких как вирусы, мошеннические фальшивые новости и т. д. Каждый человек должен взять на себя ответственность за свою собственную безопасность, но поставщик услуг может. я не говорю, что клиент приходит на наш сайт, и если вы атакуете вирусом, мы не несем ответственности, если кто-то сказал это, мы никогда не заходим на этот сайт за всю нашу жизнь, и там бизнес проваливается, так что решение этой простой компании должно быть защитить свой веб-сайт от атак и киберпреступлений.

Существует множество методов, с помощью которых компания может защитить свой веб-сайт, например, брандмауэр, приманка, ssl/tls, шифрование, сертификат и т. д., но в этой статье я расскажу о двух таких идентификаторах/ips (система обнаружения вторжений/система предотвращения вторжений). ) и как исследователи организации и безопасности используют использование матрицы путаницы, чтобы сделать ее более эффективной.

IDS/IPS

Если то, как я пишу, похоже на то, что ids/ips — это одно и то же, но это два разных продукта, но, как правило, они всегда всегда использовались вместе, поэтому в настоящее время стало очень распространенным писать так.

Итак, теперь поговорим о том, что такое идентификаторы, простыми словами, это инструмент, который обнаруживает вторжение (атаку, взлом, вредоносный трафик и т. д., что-либо, что плохо для нас) и заставляет устанавливать журналы или уведомлять о тревоге, а ips похож на идентификаторы, но это также блокировать также блокировать трафик на основе настроек

Глядя на определение, это очень простые вещи, но это не так, потому что в сегодняшних мирах нет единого определения вторжения и места, откуда оно исходит от кого угодно, и что угодно может быть вторжением, а количество попаданий может достигать 1000 в секунду и для таких сайтов, как amazon и facebook, их миллионы, поэтому мы не можем полагаться на человека для анализа каждого трафика менее чем за одну секунду, мы должны использовать такой инструмент, как ids/ips.

Таким образом, чтобы решить описанную выше организацию варианта использования, начните использовать мл (машинное обучение) для обучения идентификаторов / ips, чтобы сделать его более эффективным, но во всем этом подходе все еще есть проблема, если мы создадим модель, мы никогда не сможем сказать, что она на 100% правильная, есть одна в мире мл если модель точна на 100%, вы либо становитесь богом, либо созданная вами модель неверна ничто в мире не является точным на 100%, мы должны это проверить и создавать снова и снова, чтобы сделать его почти на 100% точным, а матрица путаницы является одним из методов тестирования, которые мы используем для проверки результатов id/ips.

Матрица путаницы

Не волнуйтесь, это не сбивает с толку, как его название, так что такое матрица путаницы (см), чтобы понять простыми словами выше, например, идентификаторы / ips, они генерируют два вида вывода, наконец, да (вторжение) и нет (не вторжение) такого рода объема производства в мл мира известна бинарная классификация.

Двоичная классификация — это тип модели мл, в которой модель дает результат только между 0 и 1, и мы нормализуем этот вывод между истинным или ложным

Обычно ture означает положительный или хороший результат, а false означает отрицательный или плохой результат, но это зависит от того, кто создал матрицу, это может быть наоборот.

Итак, теперь позвольте понять приведенный выше результат более подробно: -

  • Каждая матрица путаницы имеет 2 строки и 2 столбца, что означает, что это матрица 2 X 2, что означает, что она имеет 4 ячейки.
  • В нашем примере мы устанавливаем верхний левый угол как истинное отрицательное (TN)
  • внизу слева как ложноотрицательный (FN)
  • вверху справа как ложноположительный (FP)
  • и внизу справа как истинно положительный (TP)

Помните, как сказано, матрица путаницы используется для проверки результата бинарной классификации, которая подпадает под контролируемое обучение, что означает, что мы делим набор данных на две части: тестирование и обучение. обучающая часть используется для обучения (создания) модели, а тестовая часть используется для тестирования модели.

Теперь давайте разберемся, углубимся в матрицу путаницы: -

  • истинный отрицательный (TN): - означает, что ответы нет, и наша модель сказала, что нет, означает, что соединение является законным, а модель сказала, что соединение является законным
  • истинный положительный (TP): - означает, что ответы да, и модель сказала, что да означает, что соединение является вторжением, а модель сказала вторжение
  • ложное срабатывание (FP): - означает, что соединение да, а модель говорит нет, означает, что соединение является вторжением, а модель говорит законным, также известным как ошибка типа I.
  • ложноотрицательный (FN): - означает, что соединение отсутствует, а модель говорит «да», означает, что соединение является законным, и модель указывает на вторжение, также известное как ошибка типа II.

Глядя на матрицу, сложнее сделать вывод, чтобы было понятнее, запишем результат в какую-нибудь формулу и проанализируем их по порядку.

Помните, что значение формулы изменяется по мере изменения варианта использования, возможно, это причина, по которой она известна как матрица путаницы.

Результат всех формул всегда лежит между нулем и единицей, поэтому все формулы умножаются на 100, чтобы дать ответы в процентах.

Чувствительность

В моем случае более высокое значение чувствительности - это хорошо, но если значение чувствительности слишком высокое, это плохо, но возможны только два случая: -

  • Модель на самом деле очень хорошая и дает правильные ответы
  • и набор данных использует погоду для тестирования и обучения, модель не сбалансирована

Чувствительность также известна как отзыв

Специфика

Точно так же, как чувствительность выше, значение хорошо, но высокое значение плохо, потому что:

  • Модель на самом деле очень хорошая и дает правильные ответы
  • и набор данных использует погоду для тестирования и обучения, модель не сбалансирована

Точность

Означает количество правильных положительных результатов между всеми положительными результатами.

Отрицательное прогностическое значение

У него нет такого имени, потому что это значение мы обычно не рассчитывали, потому что всего вышеперечисленного значения более чем достаточно, чтобы дать нам хорошую идею.

Точность

Это означает общее количество правильных ответов между всеми прогнозируемыми значениями ну по названию ясно, что высокая точность это хорошо ну это не тот случай если у нас очень высокая точность может быть два случая

  • Точность 0,9 или 90% (если умножить на 100) говорит о том, что в данных почти 90% данных принадлежат либо вторжению, либо законным, и модель очень точна.
  • и если точность очень низкая, пусть 60% данных устанавливают почти 50% вторжений и 50% законных

поэтому, если точность составляет 90%, есть хорошие изменения, что наша модель очень правильная или очень неправильная, зависит от набора данных.

как правило, точность значения находится в пределах 60–70%, что считается хорошей

зачем использовать точность, чтобы найти баланс набора данных сбалансированный набор данных дает хороший результат, но в случае бинарной классификации также дает ложное ощущение неудачи

не можем ли мы просто протестировать набор данных перед созданием модели да, но что произойдет, если набор данных будет поступать в режиме реального времени, а модель будет обучаться снова, когда появится новый набор данных, в этом случае нет, потому что для выполнения ручного процесса требуется время, и злоумышленник приходит с новыми способами каждый секунды, и мы не можем упустить достаточно времени, чтобы тратить его впустую.

F-мера

Если вы дочитали до этого места, то могли заметить, что я не так много объяснял точность просто потому, что одного значения точности недостаточно для получения хорошего результата, нам нужно использовать еще одну технику, почему

хорошо, если у нас низкая точность и высокая полнота, это означает, что положительные примеры распознаются правильно, но есть много ложных срабатываний, что означает, что наша модель генерирует много журналов и блокирует большинство соединений.

и если низкая полнота и высокая точность, это показывает, что мы упускаем много положительных примеров, но те, которые мы прогнозируем как положительные, действительно положительные, это означает, что мы упускаем большую часть ответов.

чтобы решить этот вариант использования, мы вводим новую формулу, известную как f-мера

значение ближе к нижнему значению между отзывом и точностью считается хорошим средним, если значение

Обычно f-мера используется для измерения фактической точности модели, а не точности

Вывод

В этой статье я пытаюсь объяснить, что такое матрица путаницы и как мы можем использовать другую формулу матрицы путаницы для предсказания. Есть много способов предсказать правильные ответы, но они либо очень трудоемки, либо сильно загружают процессор и всегда невозможны в быстром мире. .

В то время как матрица путаницы может быть легко рассчитана в самом простом калькуляторе мира всего за несколько секунд.

Но единственная проблема матрицы путаницы в том смысле, что результат меняется по мере изменения набора данных и человека, создавшего матрицу путаницы, поэтому человек, создавший матрицу путаницы, должен документировать все результаты и тщательно с надлежащим объяснением.

Контактная информация

LinkeDin [https://www.linkedin.com/in/suyash-garg-50245b1b7]

Дополнительные теги

#worldrecordholder #обучение #стажировка #makingindiafutureready #лето #summertraining #python #machinelearning #docker #rightmentor #deepknowledge #linuxworld #vimaldaga #righteducation