"Начиная"

Три способа понимания теоремы Байеса улучшат вашу науку о данных

Овладение этой интуитивно понятной статистической концепцией повысит ваш авторитет как человека, принимающего решения.

Теорема Байеса дает нам способ обновить наши убеждения в свете новых доказательств, принимая во внимание силу наших прежних убеждений. Развертывая теорему Байеса, вы пытаетесь ответить на вопрос: какова вероятность моей гипотезы в свете новых данных?

В этой статье мы поговорим о трех способах, которыми теорема Байеса может улучшить вашу практику науки о данных:

  1. Обновление
  2. Общение
  3. Классификация

К концу вы будете обладать глубоким пониманием основополагающей концепции.

# 1 - Обновление

Теорема Байеса предоставляет структуру для проверки гипотезы с учетом силы предыдущих предположений и новых свидетельств. Этот процесс называется байесовским обновлением.

Проще говоря, эта формула представляет собой «вероятность A для данного B равна (открываемые круглые скобки) вероятности B для A раз вероятность A (закрывающие скобки) деленная на вероятность B. "

Давайте еще раз рассмотрим формулу, на этот раз с определениями переменных:

«Вероятность гипотезы в свете новых доказательств равна вероятности того, что новые доказательства верны, если гипотеза также верна раз вероятность гипотезы до того, как было обнаружено новое свидетельство, во всем (деленное на) вероятность появления нового свидетельства . »

Это можно еще сократить:

«Апостериорная вероятность равна вероятности раз априорной вероятности деления b y предельная вероятность ».

Независимо от того, звучит ли сейчас теорема Байеса интуитивно или нет, я гарантирую, что вы будете использовать ее постоянно.

Пример из реального мира

Допустим, ваша подруга звонит, чтобы сказать вам, что ей очень жаль, но она не может прийти на ужин сегодня вечером. Она недавно удочерила коалу, у которой развился насморк. Ей действительно нужно оставаться дома, чтобы следить за ситуацией.

Ваша гипотеза состоит в том, что друг не бросил бы вас без уважительной причины. (В конце концов, вы издаете гнусную фразу, которую ваша подруга сошла бы с ума, если бы ее не пропустили.) Какова вероятность того, что ваша гипотеза верна, учитывая недавние свидетельства ее нового питомца?

Чтобы оценить апостериорную вероятность того, что нашего друга нет на обеде, потому что она заботится о коале, нам необходимо рассмотреть вероятность того, что вашему другу придется остаться дома. с коалой, учитывая гипотезу о том, что ваш друг - порядочный человек, который не отказывается от планов на ужин без уважительной причины. Вы можете сделать вывод, что с большой вероятностью хороший друг, который обычно несет ответственность, останется дома, чтобы присмотреть за домашним животным.

Затем мы умножаем вероятность на априорную вероятность. Насколько сильна была ваша вера в ее приверженность планам на ужин до того, как позвонила подруга? Если вы считаете, что ваш друг тверд как скала и обычно не желает менять планы в последнюю минуту, тогда ваша априорная вероятность высока, и вы вряд ли измените эту точку зрения, независимо от новых доказательств. С другой стороны, если ваш друг нервничает, и вы уже задавались вопросом, позвонит ли она, чтобы отменить, ваша априорная вероятность мала, что также может поставить под сомнение ее заявление о том, что она остается дома с коалой.

Наконец, мы делим вышеприведенный расчет на предельную вероятность владения коалой 🐨

Байесовский вывод основан на этом гибком, здравомыслящем способе обновления наших моделей мира, основанном на силе наших априорных оценок и вероятности новых доказательств. Фактически, первоначальное применение теоремы Байеса заключалось в оценке существования бога.

Когда дело доходит до важнейших вопросов жизни и науки о данных, вы не можете превзойти теорему Байеса как интуитивный способ оценки того, как убеждения меняются с течением времени.

# 2 - Общение

Точно так же, как теорема Байеса может помочь вам понять и сформулировать, как вы обновляете свои теории перед лицом новых доказательств, Байес также может сделать вас более сильным коммуникатором в области науки о данных.

Наука о данных в основном касается применения данных для улучшения принятия решений.

Есть только две вещи, которые определяют, как сложится ваша жизнь: удача и качество ваших решений. Вы можете контролировать только одну из этих двух вещей. - Энни Дьюк, чемпионка по покеру и автор

Повышение качества решений часто означает убеждение лица, принимающего решения. Как и в случае с каждым человеком, в разговор вступает лицо, принимающее решения в вашей организации.

Пример из реального мира

Когда-то я был консультантом производителя воздушных шаров. Моя задача заключалась в том, чтобы помочь создать базу данных, которая улучшила бы сквозное понимание клиентом своей цепочки поставок, производственных процессов и продаж.

В первый же день, когда руководитель завода объезжал нас по цеху, он с гордостью описал новый контракт с поставщиком на более легкий и дешевый исходный материал.

Но возникла проблема. Когда моя команда подключила таблицы данных из разрозненных источников данных по всему предприятию, мы обнаружили связь между материалами от нового поставщика и увеличением брака на 2,5%.

У директора завода были очень сильные предубеждения о том, что новый поставщик принесет пользу его бизнесу. У нас были доказательства обратного. Еще у нас была теорема Байеса. И мы это поняли:

Чем сильнее априор, тем больше доказательств необходимо, чтобы его изменить.

Прежде чем обратиться к руководителю завода с нашими выводами, нам нужно было собрать дополнительные доказательства того, что не было каких-либо других факторов (например, изношенных машин, новых сотрудников, условий окружающей среды и т. Д.), Способствующих различному уровню брака.

В конце концов, мы обратились к менеджеру с дополнительными доказательствами и помогли ему пересмотреть контракт с поставщиком.

# 3 - Классификация

Теорема Байеса может быть применена к вариантам использования текстовой аналитики. Эта техника называется наивным Байесом, поскольку она наивно предполагает независимость каждой входной переменной (в данном случае каждого слова) в наборе данных.

Пример из реального мира

Допустим, вы нашли пачку писем, написанных вашими бабушкой и дедушкой. У них были довольно бурные отношения и достаточно драмы, чтобы доказать, что рок-романы не ограничиваются только молодыми людьми на реалити-шоу.

Вы хотите создать классификатор настроений, чтобы определить, является ли большая часть контента положительной или отрицательной. Один из способов сделать это - использовать наивный байесовский метод.

Генеративный классификатор, такой как наивный Байес, построит модель того, как класс (в данном случае положительный или отрицательный) может генерировать некоторые входные данные. Учитывая наблюдение (новое предложение из нашего корпуса буквенных тестов), он возвращает класс, который, скорее всего, вызвал наблюдение. Это контрастирует с дискриминационным классификатором, таким как логистическая регрессия, который изучает предсказательную силу входных функций.

Наивный байесовский метод основан на методе набора слов - в основном преобразовании документа в гистограмму, которая подсчитывает, сколько раз используется каждое слово.

Вы можете использовать слегка измененную версию формулы байесовского вывода, которую мы изучили в Части № 1, чтобы вычислить наиболее вероятный класс для каждого наблюдения. Небольшая модификация - это наивная часть наивного Байеса: предположение о том, что вероятности для каждого слова не зависят от класса, поэтому вы можете умножить их вместе, чтобы сгенерировать вероятность того, что предложение попадет в класс .

В приведенной выше формуле wᵢ представляет количество слов в документе c. Знаменатель формулы - это сумма условных вероятностей того, что слова попадают в данный класс.

+1 в формуле предотвращает любую возможность умножения на ноль в случае, если в классе нет наблюдений за словом. Этот метод добавления единицы называется сглаживанием Лапласа.

Наконец, | V | состоит из объединения всех слов всех классов.

Словарь теоремы Байеса

  • Апостериорная вероятность: вероятность гипотезы в свете новых доказательств.
  • Вероятность: вероятность того, что доказательства верны при предположении, что гипотеза верна.
  • Априорная вероятность: сила вашей уверенности в истинности гипотезы до появления новых доказательств.
  • Предельная вероятность: доказательства
  • Наивный Байес: алгоритм классификатора, предполагающий наивную независимость между функциями набора данных.
  • генеративный классификатор: моделирует, как конкретный класс будет генерировать входные данные.
  • мешок слов: упрощенное представление текста, которое преобразует документ в гистограмму.
  • Сглаживание Лапласа: простой метод аддитивного сглаживания, позволяющий избежать умножения на ноль.

Резюме

Я твердо уверен, что теорема Байеса полезна для специалистов по данным, но я буду обновлять апостериорную вероятность на основе отзывов, которые вы оставите мне в комментариях. Я с нетерпением жду вашего ответа о том, как вы используете теорему Байеса в своей жизни и работе.

Больше статей для развития вашей науки о данных