В этой статье мы обсудим теорему Байеса и то, как она используется для классификации спама в машинном обучении.

Прежде всего, мы должны представить себе ситуацию. У нас есть два коллеги Макс и Тина. Они оба похожи друг на друга и работают в одной лаборатории. Однажды в лаборатории произошел пожар. Они оба сказали, что ничего не знают об огне и не имеют к нему никакого отношения. Но камера видеонаблюдения в коридоре увидела, что кто-то выбегает из лаборатории, когда начался пожар в красном свитере. Теперь мы не можем определить, кем был этот человек, потому что они оба похожи.

На данный момент можно сказать, что вероятность возгорания любого из них составляет 50%. Но приходит новый результат: Макс работал только 2 дня в неделю, а Тина работала 3 дня в неделю. Теперь значения вероятности меняются, и мы можем сказать, что вероятность того, что Макс вызовет пожар, теперь составляет 40%, а вероятность Тины - 60%.

На данный момент можно сказать, что именно Тина, скорее всего, устроила пожар. Эта информация называется априорной. Теперь появилась новая информация: Макс носит красный свитер 3 раза в неделю, а Тина носит красный свитер, который она носит 1 раз в неделю. Поскольку человек, которого мы видели в кадре, был одет в красный свитер, это очень ценная информация. Давайте самостоятельно вычислим новые вероятности.

Теперь, чтобы рассчитать общую вероятность возникновения этих предварительных сценариев, мы должны их умножить.

  1. Вероятность того, что Макс наденет красный свитер и придет на работу = вероятность того, что Макс выйдет на работу * Вероятность того, что Макс наденет красный свитер
  2. Вероятность того, что Тина наденет красный свитер и придет на работу = вероятность того, что Тина выйдет на работу * Вероятность того, что Тина наденет красный свитер
  3. 3. Поскольку вероятность того, что Макс и Тина не оденут красное, не имеет значения, мы не будем их рассматривать.

Мы просто использовали теорему Байеса, но в ней есть честная ошибка. Сумма вероятностей должна составлять единицу. Но в нашем случае его путь меньше 1. Мы должны его нормализовать. Как мы можем это сделать? Просто разделите это на сумму вероятностей обоих наших исходов.

Эта теорема вероятности сработала для классификатора спама !!! Как? Теперь в нашем наборе данных есть 5 писем, которые являются спамом, и 5 - не спамом. Допустим, человек получает сообщение «легкие деньги». Слово просто появляется 1 раз Радиолюбители и спам. Вероятность слова "легкий" в спаме и ветчине:

Теперь давайте посчитаем вероятности слова «деньги». Он появляется 2 раза в 3 спамах и один раз в 4 радиолюбителях:

Теперь мы рассчитали вероятность появления слов «легкий» и «деньги» в спаме и радиолюбителях. Какова вероятность того, что оба этих слова встречаются в одном сообщении вместе?

Таким образом, модель узнает вероятности того, что каждое слово принадлежит «ветчине» или «спаму». Надеюсь, вы поняли большую часть этого, если нет, дайте мне знать в комментариях. Эта серия будет продолжена, пожалуйста, не забывайте подписываться на меня или хлопать в ладоши в этой статье. Это дает мне мотивацию и некоторую дозу дофамина :)