Сравнительное исследование фильтрации спама в электронной почте с использованием алгоритмов классификации

Аннотация

Электронные письма со спамом являются постоянным источником разочарования для среднего пользователя Интернета. Проблема фильтрации спам-сообщений является важной для поставщиков услуг электронной почты, чтобы свести к минимуму эту нежелательную форму связи, которая также часто представляет угрозу кибербезопасности. Здесь я изучаю два популярных алгоритма классификации машинного обучения, логистической регрессии (LR) и машин опорных векторов (SVM), чтобы помочь решить эту проблему и получить результаты о пригодности двух методов.

1 Введение

Общение по электронной почте стало решающим в современном мире. Электронный спам — это разновидность нежелательных сообщений, рассылаемых по электронной почте. Обычная терминология для описания электронной почты как не спама — «Ham», что означает, что электронная почта является либо ветчиной, либо спамом. Согласно статистике, представленной на сайте [1], соотношение спама по электронной почте ко всем полученным электронным письмам в марте 2019 года составило 56%, что значительно ниже 69% в 2012 году. растущий интерес к области прогнозной аналитики и методов машинного обучения, а также рост вычислительной мощности для практической реализации теории на месте.

1.1 Статистическая классификация

В статистике и машинном обучении; Классификация, которая является примером методов обучения с учителем, представляет собой проблему идентификации ассоциации данного объекта с одной из набора категорий на основе уже классифицированных обучающих данных, доступных классификатору. Двоичная классификация — это тип классификации, при котором наблюдение может быть отнесено к одной из двух категорий, что имеет отношение к проблеме фильтрации спама по электронной почте. Существует широкий спектр алгоритмов классификации, таких как машины опорных векторов, логистическая регрессия, наивный байесовский анализ, линейный дискриминантный анализ, деревья решений и алгоритм k-ближайших соседей.

1.1.1 Логистическая регрессия

Логистическая регрессия — это статистическая модель, которая использует логистическую функцию для моделирования зависимой переменной на основе значений независимых переменных. Независимые переменные являются входными данными для любой статистической модели, а зависимые переменные являются результатом, основанным на входных данных. Логистическая функция представляет собой сигмовидную кривую, следующую уравнению:

где x — линейный прогноз, сделанный алгоритмом

Логистическая регрессия оценивает параметры логистической модели. Бинарная логистическая модель имеет зависимую переменную с двумя возможными значениями, в данном случае 0 для спама и 1 для ветам. Нас интересует оценка вероятности того, что данное электронное письмо является спамом. Математически мы хотим оценить вероятность

Наша функция прогнозирования f(x) возвращает вероятность от 0 до 1. На основе этой оценки мы хотим определить границу решения на основе порогового значения. Мы предполагаем, что данное электронное письмо с одинаковой вероятностью может быть спамом или спамом. Таким образом, если

классифицировать письмо как спам; иначе ветчина. Мы моделируем вероятность данных данных, используя уравнение

где βi— коэффициент выборки X и β0 является константой

Затем мы используем функцию стоимости, чтобы наказать уверенные, но неправильные прогнозы в обучающем наборе, с низким вознаграждением за уверенные и правильные прогнозы. [2]

1.1.2. Машина опорных векторов

Базовая машина опорных векторов (SVM) представляет собой тип невероятностного алгоритма бинарной линейной классификации. Целью SVM является максимальное разделение различных классов с использованием границ, образованных положительными и отрицательными образцами. Проблема состоит в том, чтобы определить гиперплоскость с максимальным запасом, определяемую границами разделения.

где {\displaystyle {\vec {w}}} – вектор нормали к гиперплоскости.

Концепция была адаптирована для точного выполнения нелинейной классификации с использованием ядер для сопоставления входных данных с пространством более высокой размерности. Он работает путем построения эквидистантного гиперплоскостного разделения максимального поля между положительными и отрицательными образцами в многомерном векторном пространстве. Часто данные нельзя разделить линейно, поэтому необходим нелинейный разделитель. Даже в случае нелинейного разделения возможно, что разделение не является совершенным, что означает, что существует определенный уровень ошибки, который нельзя игнорировать. Задача оптимизации состоит в том, чтобы минимизировать функцию стоимости ошибки для осмысленной классификации. [3]

1.2 Набор данных Enron

Набор данных Enron [4] — это реальный набор данных электронной почты, собранный для исследования. Набор данных был предварительно обработан для информации, позволяющей установить личность, и других соображений целостности или конфиденциальности. Это остается одним из немногих наборов данных с реальными электронными сообщениями в отношении использования в исследованиях для различных целей. В контексте этой проблемы набор данных будет случайным образом сокращен до обучающего набора для изучения модели и тестового набора для проверки прогнозов. Каждое сообщение находится в отдельном текстовом файле.

2 Обозначения и предположения

Набор данных, используемый для экспериментов, был предварительно обработан для использования в исследованиях. Это означает, что данные не содержат каких-либо HTML-разметок и т. д. Данные электронной почты доступны в виде обычного текста и идеально помечены для учебных целей.

3 Реализация

3.1 Извлечение функций

Подмножество из 350 нежелательных электронных писем и 350 нежелательных электронных писем использовалось для изучения модели, которая затем использовалась для классификации 260 случайных электронных писем как нежелательных или спамовых. Поскольку используемый набор данных предварительно обработан, дальнейшая предварительная обработка не применялась. Матрица векторов признаков была создана с использованием слов в электронных письмах, которые используются в качестве входных данных для алгоритма обучения.

3.2 Алгоритм LR

Библиотека машинного обучения с открытым исходным кодом sklearn использовалась для реализации алгоритма классификации с параметрами, как показано в описании концепции. Входными данными для алгоритма является двумерный массив векторов признаков обучающего набора и соответствующих меток классов, 0 или 1. Затем изученная модель используется для прогнозирования немаркированного тестового набора с результатами, показанными в следующем разделе.

3.3 Алгоритм SVM

Опять же, для реализации алгоритма SVM использовалась библиотека sklearn. Здесь мы изучили модель, используя два разных ядра, ядро Гаусса и полиномиальное ядро. Входные данные для обеих моделей такие же, как и для алгоритма LR. Здесь интересно отметить, что решатель оптимизации для SVM выбирает случайный набор функций для обучения, и поэтому в разных прогонах наблюдались небольшие различия в результатах.

4 ключевых результата

5 Заключение

Результаты для данного набора данных показывают, что и LR, и SVM являются хорошими методами классификации, подходящими для проблемы классификации электронной почты для фильтрации спама. Хотя у SVM есть компромисс в отношении более высоких требований к вычислениям и времени обучения, результаты значительно лучше по сравнению с логистической регрессией. Эксперимент также показывает, что результаты, полученные SVM с полиномиальным ядром, дают лучшие результаты по сравнению с гауссовским ядром при текущих параметрах используемого подхода. Это можно объяснить использованием в алгоритмах полного набора функций обучающих данных, тогда как ядро Гаусса, по-видимому, превосходит другие ядра по сокращенному набору функций обучающих данных. [5]

Эксперименты проводились с матрицей выборочных признаков для алгоритмов классификации без какого-либо уменьшения размерности. Дальнейшие эксперименты с методами уменьшения размерности, такими как частота термина, обратная частоте документа, были бы хорошим исследованием для более глубокого изучения проблемы и в большем масштабе.

Ссылки

[1] https://www.statista.com/statistics/420391/spam-email-traffic-share/

[2] Фероз, Мохаммед и Менгель, Сьюзен. (2015). Проверка данных, генерация правил и обнаружение фишинговых URL-адресов с использованием онлайн-логистической регрессии. Материалы — Международная конференция IEEE по большим данным, 2014 г., IEEE Big Data 2014. 241–250. 10.1109/BigData.2014.7004239.

[3] Метсис, Вангелис и Андруцопулос, Ион и Палиурас, Георгиос, (2006) Фильтрация спама с помощью наивного байесовского метода — какой наивный байесовский метод?, CEAS.

[4] Набор данных электронной почты Enron, подготовленный проектом CALO 2004 г. ссылка

[5] Blanzieri, E. & Bryl, A, (2008) Обзор основанных на обучении методов фильтрации спама в электронной почте, Обзор искусственного интеллекта.

Сравнительное исследование фильтрации спама в электронной почте с использованием алгоритмов классификации

Вопросы по теме