Наивные байесовские классификаторы

Что такое наивный байесовский алгоритм/классификаторы?

Наивный байесовский классификатор — это контролируемый алгоритм машинного обучения. который используется для задач классификации, таких как классификация текста.
Наивный Байес — это метод классификации, основанный на теореме Байеса с предположением, что все признаки, которые предсказывают целевое значение, независимы друг от друга.
Он вычисляет вероятность каждого класса, а затем выбирает тот, который имеет наибольшую вероятность.
Наивный Байес С «наивным» предположением о независимости среди предикторов
Он работает с огромными данными и в основном используется для решения текстовых данных.
Примеры: классификация электронной почты, анализ настроений в Твиттере и т. д.

Теорема Байя:

Теорема Байеса — незаменимый закон вероятности, позволяющий дедуктивно количественно оценивать неизвестные вероятности.
Теорема Байеса позволяет обновлять предсказанные вероятности события путем включения новой информации.
Теорема Байеса была названа в честь математика 18-го века Томаса Байеса.
Он часто используется в финансах для расчета или обновления оценки риска.
Теорема стала полезным элементом в реализации машинного обучения.
Теорема Байеса формулируется математически как следующее уравнение:

Как работает алгоритм наивного Байеса:

Мы тренируем набор данных о погоде и соответствующую целевую переменную «Играть» (предлагая возможности игры).
Теперь нам нужно классифицировать, будут ли игроки играть или нет, в зависимости от погодных условий.

Шаги:

1. Преобразуйте набор данных в таблицу частот.

2. Создайте таблицу правдоподобия, найдя такие вероятности, как вероятность пасмурной погоды = 0,29 и вероятность игры 0,64.

3. Теперь используйте наивное уравнение Байеса, чтобы вычислить апостериорную вероятность для каждого класса.

4. Результатом предсказания является класс с наибольшей апостериорной вероятностью.

Постановка задачи:

Игроки будут играть, если будет солнечная погода. Это утверждение верно?

P(Да | Солнечно) = P( Солнечно | Да) * P(Да) / P (Солнечно)

Здесь у нас есть,

P (Солнечно | Да) = 3/9 = 0,33,

Р(Солнечно) = 5/14 = 0,36,

P(Да) = 9/14 = 0,64

Теперь P (Да | Солнечно) = 0,33 * 0,64 / 0,36 = 0,60 (высокая вероятность)

P(Нет | Солнечно) = P( Солнечно | Нет) * P(Нет) / P (Солнечно)

Здесь у нас есть

P (Солнечно | Нет) = 2/5 = 0,4,

Р(Солнечно) = 5/14 = 0,36,

P( No)= 5/14 = 0.36

Теперь P (Нет | Солнечно) = 0,4 * 0,36 / 0,36 = 0,40 (низкая вероятность).

Игроки будут играть, если будет солнечная погода. Это утверждение верно.

Проблема с нулевой частотой:

Что делать, если любой из счетчиков равен 0?

● Добавьте 1 ко всем пунктам

● Это форма сглаживания Лапласа.

Сглаживание по Лапласу:

Сглаживание по Лапласу — это метод сглаживания, который помогает решить проблему нулевой вероятности в алгоритме наивного байесовского машинного обучения.
Использование более высоких значений альфа подтолкнет вероятность к значению 0,5, т. Е. Вероятность слова, равная 0,5, как для положительных, так и для отрицательных отзывов.
Поскольку мы не получаем от этого много информации, это нежелательно. Поэтому предпочтительно использовать альфа=1.

Подробнее см.: https://en.wikipedia.org/wiki/Additive_smoothing

Советы по улучшению наивной байесовской модели:

Если непрерывные признаки не имеют нормального распределения,

мы должны использовать преобразование или другие методы для преобразования
Если набор тестовых данных имеет проблемы с нулевой частотой,
применять технику сглаживания «сглаживание по Лапласу»
Удалите коррелированные функции, так как сильно коррелированные функции голосуются в модели дважды, и это может привести к чрезмерному завышению важности.
Наивный байесовский классификатор имеет ограниченные возможности настройки параметров.
Не может быть ансамблем — потому что нет дисперсии, чтобы уменьшить

Типы наивных байесовских классификаторов:

Полиномиальное. Векторы признаков представляют частоты, с которыми определенные события генерируются полиномиальным распределением. Например, подсчитайте, как часто каждое слово встречается в документе. Это модель событий, обычно используемая для классификации документов.
Бернулли: как и полиномиальная модель, эта модель популярна для задач классификации документов, где используются характеристики бинарного термина (т. е. слово встречается в документе или нет), а не частоты терминов (т. е. частота слово в документе).
Гауссово: используется в классификации и предполагает, что признаки подчиняются нормальному распределению.

Приложения:

1. Классификация текста/ Фильтрация спама/ Анализ тональности:

В основном используется в текстовой классификации
Имеют более высокий уровень успеха по сравнению с другими алгоритмами.
Широко используется в фильтрации спама (определение спама по электронной почте) и анализе настроений.

2. Система рекомендаций:

Наивный байесовский классификатор и совместная фильтрация вместе создают рекомендательную систему, которая использует методы машинного обучения и интеллектуального анализа данных для фильтрации невидимой информации и прогнозирования того, понравится ли пользователю данный ресурс или нет.

Если вы узнали что-то из этого блога, не забудьте поставить 👏🏼

Встретимся в какой-нибудь другой статье, а пока Мир ✌🏼.

Приятного чтения.

Спасибо..

Для построения модели: https://github.com/Dishantkharkar/Machine_learning_Models/blob/main/Spam_classification_with_Naive_Bayes.ipynb