Что такое наивный байесовский алгоритм/классификаторы?
- Наивный байесовский классификатор — это контролируемый алгоритм машинного обучения. который используется для задач классификации, таких как классификация текста.
- Наивный Байес — это метод классификации, основанный на теореме Байеса с предположением, что все признаки, которые предсказывают целевое значение, независимы друг от друга.
- Он вычисляет вероятность каждого класса, а затем выбирает тот, который имеет наибольшую вероятность.
- Наивный Байес С «наивным» предположением о независимости среди предикторов
- Он работает с огромными данными и в основном используется для решения текстовых данных.
- Примеры: классификация электронной почты, анализ настроений в Твиттере и т. д.
Теорема Байя:
- Теорема Байеса — незаменимый закон вероятности, позволяющий дедуктивно количественно оценивать неизвестные вероятности.
- Теорема Байеса позволяет обновлять предсказанные вероятности события путем включения новой информации.
- Теорема Байеса была названа в честь математика 18-го века Томаса Байеса.
- Он часто используется в финансах для расчета или обновления оценки риска.
- Теорема стала полезным элементом в реализации машинного обучения.
- Теорема Байеса формулируется математически как следующее уравнение:
Как работает алгоритм наивного Байеса:
- Мы тренируем набор данных о погоде и соответствующую целевую переменную «Играть» (предлагая возможности игры).
- Теперь нам нужно классифицировать, будут ли игроки играть или нет, в зависимости от погодных условий.
Шаги:
1. Преобразуйте набор данных в таблицу частот.
2. Создайте таблицу правдоподобия, найдя такие вероятности, как вероятность пасмурной погоды = 0,29 и вероятность игры 0,64.
3. Теперь используйте наивное уравнение Байеса, чтобы вычислить апостериорную вероятность для каждого класса.
4. Результатом предсказания является класс с наибольшей апостериорной вероятностью.
Постановка задачи:
Игроки будут играть, если будет солнечная погода. Это утверждение верно?
P(Да | Солнечно) = P( Солнечно | Да) * P(Да) / P (Солнечно)
Здесь у нас есть,
P (Солнечно | Да) = 3/9 = 0,33,
Р(Солнечно) = 5/14 = 0,36,
P(Да) = 9/14 = 0,64
Теперь P (Да | Солнечно) = 0,33 * 0,64 / 0,36 = 0,60 (высокая вероятность)
P(Нет | Солнечно) = P( Солнечно | Нет) * P(Нет) / P (Солнечно)
Здесь у нас есть
P (Солнечно | Нет) = 2/5 = 0,4,
Р(Солнечно) = 5/14 = 0,36,
P( No)= 5/14 = 0.36
Теперь P (Нет | Солнечно) = 0,4 * 0,36 / 0,36 = 0,40 (низкая вероятность).
Игроки будут играть, если будет солнечная погода. Это утверждение верно.
Проблема с нулевой частотой:
Что делать, если любой из счетчиков равен 0?
● Добавьте 1 ко всем пунктам
● Это форма сглаживания Лапласа.
Сглаживание по Лапласу:
- Сглаживание по Лапласу — это метод сглаживания, который помогает решить проблему нулевой вероятности в алгоритме наивного байесовского машинного обучения.
- Использование более высоких значений альфа подтолкнет вероятность к значению 0,5, т. Е. Вероятность слова, равная 0,5, как для положительных, так и для отрицательных отзывов.
- Поскольку мы не получаем от этого много информации, это нежелательно. Поэтому предпочтительно использовать альфа=1.
Подробнее см.: https://en.wikipedia.org/wiki/Additive_smoothing
Советы по улучшению наивной байесовской модели:
Если непрерывные признаки не имеют нормального распределения,
- мы должны использовать преобразование или другие методы для преобразования
- Если набор тестовых данных имеет проблемы с нулевой частотой,
- применять технику сглаживания «сглаживание по Лапласу»
- Удалите коррелированные функции, так как сильно коррелированные функции голосуются в модели дважды, и это может привести к чрезмерному завышению важности.
- Наивный байесовский классификатор имеет ограниченные возможности настройки параметров.
- Не может быть ансамблем — потому что нет дисперсии, чтобы уменьшить
Типы наивных байесовских классификаторов:
- Полиномиальное. Векторы признаков представляют частоты, с которыми определенные события генерируются полиномиальным распределением. Например, подсчитайте, как часто каждое слово встречается в документе. Это модель событий, обычно используемая для классификации документов.
- Бернулли: как и полиномиальная модель, эта модель популярна для задач классификации документов, где используются характеристики бинарного термина (т. е. слово встречается в документе или нет), а не частоты терминов (т. е. частота слово в документе).
- Гауссово: используется в классификации и предполагает, что признаки подчиняются нормальному распределению.
Приложения:
1. Классификация текста/ Фильтрация спама/ Анализ тональности:
- В основном используется в текстовой классификации
- Имеют более высокий уровень успеха по сравнению с другими алгоритмами.
- Широко используется в фильтрации спама (определение спама по электронной почте) и анализе настроений.
2. Система рекомендаций:
- Наивный байесовский классификатор и совместная фильтрация вместе создают рекомендательную систему, которая использует методы машинного обучения и интеллектуального анализа данных для фильтрации невидимой информации и прогнозирования того, понравится ли пользователю данный ресурс или нет.
Если вы узнали что-то из этого блога, не забудьте поставить 👏🏼
Встретимся в какой-нибудь другой статье, а пока Мир ✌🏼.
Приятного чтения.
Спасибо..
Для построения модели: https://github.com/Dishantkharkar/Machine_learning_Models/blob/main/Spam_classification_with_Naive_Bayes.ipynb