Расчет вероятности

Многие задачи требуют оценки вероятности на выходе. Логистическая регрессия — чрезвычайно эффективный механизм расчета вероятностей. Практически говоря, вы можете использовать возвращенную вероятность одним из следующих двух способов:

  • “As is”
  • Преобразовано в бинарную категорию.

Давайте рассмотрим, как мы могли бы использовать вероятность «как есть». Предположим, мы создаем модель логистической регрессии, чтобы предсказать вероятность того, что собака будет лаять посреди ночи. Назовем эту вероятность:

Если модель логистической регрессии предсказывает p(bark | night), равное 0,05, то за год владельцы собак должны проснуться примерно 18 раз:

Во многих случаях вы будете сопоставлять выходные данные логистической регрессии с решением задачи бинарной классификации, цель которой — правильно предсказать одну из двух возможных меток (например, «спам» или «не спам»).

Вам может быть интересно, как модель логистической регрессии может гарантировать, что выходные данные всегда находятся между 0 и 1. Как это происходит, сигмоидальная функция, определенная следующим образом, дает выходные данные с такими же характеристиками:

Сигмовидная функция дает следующий график:



Если z представляет выходные данные линейного слоя модели, обученной с помощью логистической регрессии, то сигмоид (z) даст значение (вероятность) от 0 до 1. В математических терминах:

где:

  • y′ — это выходные данные модели логистической регрессии для конкретного примера.
  • z=b+w1x1+w2x2+…+wNxN
  • Значения w — это изученные веса модели, а b — смещение.
  • Значения x — это значения характеристик для конкретного примера.

Обратите внимание, что z также называется логарифмическими шансами, потому что обратная сигмоида утверждает, что z можно определить как логарифм вероятности метки «1». (например, «собака лает»), деленная на вероятность метки «0» (например, «собака не лает»):

Вот сигмовидная функция с метками ML:

Пример расчета

Предположим, у нас есть модель логистической регрессии с тремя функциями, которая изучила следующие смещения и веса:

  • b = 1
  • w1 = 2
  • w2 = -1
  • w3 = 5

Кроме того, предположим, что следующие значения признаков для данного примера:

  • x1 = 0
  • x2 = 10
  • x3 = 2

Таким образом, логарифмические шансы:

будет:

Следовательно, прогноз логистической регрессии для этого конкретного примера будет равен 0,731:

Потеря и регуляризация

Функция потерь для линейной регрессии представляет собой квадрат потерь. Функция потерь для логистической регрессии называется Log Loss и определяется следующим образом:

где:

  • (x,y)∈D — это набор данных, содержащий множество помеченных примеров, которые представляют собой пары (x,y).
  • y – это метка в примере с меткой. Поскольку это логистическая регрессия, каждое значение y должно быть либо 0, либо 1.
  • y′ – прогнозируемое значение (где-то от 0 до 1) с учетом набора функций в x.


Регуляризация в логистической регрессии

Регуляризация чрезвычайно важна в моделировании логистической регрессии. Без регуляризации асимптотическая природа логистической регрессии приведет к тому, что потери будут приближаться к 0 в больших размерностях. Следовательно, большинство моделей логистической регрессии используют одну из следующих двух стратегий для уменьшения сложности модели:

  • Регуляризация L2.
  • Ранняя остановка, то есть ограничение количества шагов обучения или скорости обучения.

Представьте, что вы назначаете уникальный идентификатор каждому примеру и сопоставляете каждый идентификатор с его собственной функцией. Если вы не укажете функцию регуляризации, модель станет полностью переобученной. Это связано с тем, что модель будет пытаться свести потери к нулю во всех примерах и никогда не добьется этого, приводя веса для каждой функции индикатора к +бесконечности или -бесконечности. Это может произойти в многомерных данных с пересечениями признаков, когда существует огромная масса редких пересечений, каждое из которых происходит только в одном примере.

К счастью, использование L2 или ранняя остановка предотвратят эту проблему.

Части этой страницы представляют собой модификации, основанные на работе, созданной и опубликованной Google, и используются в соответствии с условиями, описанными в лицензии Creative Commons 4.0 Attribution.