Обзор наивного байесовского алгоритма

Наивные байесовские классификаторы — это линейные классификаторы, основанные на теореме Байеса. Создана вероятностная модель. Он вычисляет условную вероятность или вероятность того, что что-то произойдет, если другое событие уже произошло. Например, использование в сообщении таких фраз, как «приз», делает его вероятным спамом.

Представление о том, что функции в наборе данных независимы друг от друга, является причиной, по которой его называют наивным. Хотя предположение о независимости часто нарушается на практике, наивные байесовские классификаторы, тем не менее, часто дают превосходные результаты.

Цель состоит в том, чтобы улучшить вероятность наивного правила Байеса для предсказания класса, включив все доступные доказательства в виде предикторов. Наивные байесовские классификаторы быстрые, простые, точные и в целом надежные.

Широко распространено использование байесовских классификаторов.

Событие:

Результат расследования.

Процесс, используемый в экспериментах для понимания возможных результатов.

Образец пространства:

Сбор всех результатов экспериментов.

Вероятность:

Вероятность возникновения события.

Совместная вероятность:

Это вероятность того, что многие события произойдут одновременно.

Какова вероятность того, что карта в колоде карт — красный король?

Условная возможность:

Если совместная вероятность равна нулю, это неверно.

Какова вероятность того, что красная карта в колоде карт является королем, учитывая ее цвет?

Плюсы:

Класс набора тестовых данных можно предсказать быстро и легко. Кроме того, он превосходен в прогнозировании нескольких классов.

По сравнению с числовой переменной, он хорошо работает с категориальными входными переменными. Предполагается, что числовые переменные имеют нормальное распределение (кривая нормального распределения, что является сильным предположением).

Минусы:

Если категориальная переменная имеет категорию в наборе тестовых данных, но не в наборе обучающих данных, модель присвоит ей вероятность 0 (ноль) и не сможет ничего предсказать. Это обычно называют «нулевой частотой». Мы можем использовать метод сглаживания, чтобы решить эту проблему.

Однако наивный байесовский метод также считается плохой оценкой, поэтому не следует слишком серьезно относиться к предсказанию выходных данных пробы для вероятности.

Предположение о независимых предикторах — еще один недостаток Наивного Байеса.

Ниже приведены некоторые преимущества классификатора Nave Bayes:

Реализация этого алгоритма проста и быстра. Этот подход особенно эффективен, потому что, в отличие от других классификаторов с учителем, он не требует построения гиперплоскостей или настройки сложных гиперпараметров.

В то время как многие классификаторы с учителем обычно становятся менее эффективными при обработке категориальных данных с несколькими классами, поскольку их сложно проецировать на гиперплоскость, Nave Bayes хорошо работает с категориальными данными.

Ниже приведены некоторые недостатки классификатора Nave Bayes:

Класс, присутствующий в тестовых данных, может отсутствовать в обучающих данных в задачах классификации с несколькими классами.

Рассмотрим, например, необходимость разработки модели машинного обучения для прогнозирования.

Для иллюстрации предположим, что нам нужно создать модель машинного обучения (ML), чтобы определить, является ли животное на изображении кошкой, собакой или слоном. К сожалению, нам не удалось получить фотографии слонов для обучающего набора данных. Поэтому мы использовали фотографии кошек и собак для обучения модели, прежде чем, наконец, перенести ее в производственную среду в реальном времени.

Теперь вы можете определить возникшую проблему?

Модель сможет опознать любое изображение кошки или собаки, но любое изображение слона вызовет у нее недоумение, потому что она никогда раньше не встречала такого крупного живого существа.

Во многих областях расчета при таких обстоятельствах знаменатель станет равным 0, а это .

Заключение

В анализе настроений, фильтрации спама, системах рекомендаций и т. д. часто используются наивные байесовские алгоритмы. Хотя их легко и быстро реализовать, их основным недостатком является необходимость независимых предикторов.

Машинное обучение (МО), несомненно, сейчас находится на вершине стека. Эти несколько путей позволяют людям из разных слоев общества следовать своим интересам и начать карьеру в области науки о данных. Кроме того, Tutort Academy предлагает лучшие онлайн-курсы, которые помогут вам продвинуться по карьерной лестнице. Поэтому я бы порекомендовал вам ознакомиться с курсами этой Академии.