Давайте выведем логистическую регрессию с нуля через рассказ. Надеюсь, вам будет интересно и весело.

Итак, в настоящее время два человека взаимодействуют друг с другом. Один - это я, писатель, а другой - вы, читатель. И в конце взаимодействия вы САМИ получите логистическую регрессию из линейной регрессии. Только одно условие с моей стороны: мы получим настройку регрессии, имеющую только одну независимую переменную X.

Давайте сначала начнем с простой линейной регрессии. У нас есть одна зависимая переменная Y и только одна независимая переменная X. Следовательно, Модель выглядит как Y = a + bX + e, где a и b - неизвестные коэффициенты, а e - член ошибки. Вы знаете все о допущениях модели и последствиях нарушения любого из этих допущений. Проблема в основном сводится к оценке неизвестных параметров a и b. Это можно сделать двумя способами. Метод наименьших квадратов и метод максимального правдоподобия. Мы ограничиваемся только MLE.

ПОЧЕМУ?

Потому что после оценки для целей тестирования вам понадобится предположение о распределении. Для процедуры оценки по методу наименьших квадратов вам не нужно какое-либо связанное с ней распределение вероятностей. Но для MLE нам необходимо предположение, что члены ошибки независимо следуют нормальному распределению со средним значением 0 и постоянной дисперсией.

Следовательно, теперь у нас есть модель Y = a + bX + e, где Y следует нормальному распределению со средним a + bX и a, имеющим постоянную дисперсию. К чему это приводит? Это означает, что Y может принимать любое значение на реальной линии. У меня вопрос: а что, если это предположение нарушается? Что, если Y может принимать только несколько ограниченных значений? Что, если Y может принимать только два значения? Скажите, что это означает отсутствие или присутствие какого-либо события. Как с этим справиться? Какие-либо предложения?

Одно можно сказать наверняка, предположение о нормальности здесь неверно. Поскольку, если ошибка следует нормальному распределению, тогда Y также следует нормальному распределению, но поскольку Y здесь дискретный, предположение полностью неверно.

Совершенно верно. Мы немного отклонились от линейной регрессии. Сейчас у нас в руках очень тревожное уравнение. Y = a + bX + e, где r.h.s может принимать любое действительное значение, но l.h.s может принимать только 0 или 1 (кодирование наличия как 1 и отсутствия как 0). Что делать?

В качестве решения давайте немного изменим уравнение. Какую часть изменить наиболее логично? Y или X или e? Позвольте мне дать подсказку. Предположим, у вас есть две величины: одна стохастическая, а другая нестохастическая. Как вы думаете, какой из них более управляем?

Конечно нестохастическая величина. Стохастическая величина регулируется некоторым естественным законом. У нас нет особого контроля над этим.

Очень хороший читатель ответов. Тогда какой из них изменить среди Y, X и e? Не стохастический, то есть X. Что ж, для нашего случая это на самом деле a + bX. Я говорю: давайте найдем функцию f (.) Такую, что f (a + bX) лежит между 0 и 1, и выберем порог c на основе данных так, что если f (a + bX) ‹c, то Y = 0 и если f (a + bX) ≥c, то Y = 1. Вы убеждены в этом предложении?

Нет, если в конце нам нужно выбрать порог, тогда зачем преобразовывать a + bX во что-то, что ограничено 0 и 1. Разве мы не можем сделать что-то вроде if a + bX ‹d тогда Y = 0 и если a + bX ›d, то Y = 1?

Очень хороший вопрос. Снова сосредоточьтесь на простой линейной регрессии. Скажем, после оценки у вас есть уравнение регрессии как Y = a + b X. Для X = x0 вы получите значение y0 = a + b * x0. Каждый раз, когда вы помещаете X = x0 в уравнение, каждый раз вы получаете Y = y0. Но на самом деле, если у вас есть n наблюдений, у которых значение X равно x0, как вы думаете, Y будет y0 для каждого из этих наблюдений? Скажем, Y - масса тела, а X - возраст в годах. Как вы думаете, у всех 24-летних людей одинаковый вес? Конечно, нет.

Вот уловка. Y следует нормальному со средним a + bX, Y здесь стохастический. Значения Y n наблюдений с X = x0 - это не что иное, как случайная выборка размера n из нормального распределения со средним значением a + b * x0. Каково же тогда ожидаемое значение выборочного среднего? Это действительно a + b * x0 = y0.

Помните !!!!! В линейной регрессии мы не прогнозируем Y, мы оцениваем ожидаемое значение Y, то есть E [Y]. Y стохастический. Для одного и того же X = x0 он должен давать разные значения, но E [Y] будет фиксированным, поскольку он нестохастический.

Вернемся к нашему случаю. Y может принимать только два значения: 0 и 1. Какое распределение вероятностей лучше всего описывает такую ​​случайную величину?

Распределение Бернулли?

Точно читатель, точно. Предположим, Y следует распределению Бернулли с параметром p (скажем) с 0≤p≤1. Следовательно, P [Y = 1] = p = 1-P [Y = 0] и E [Y] = p. Следовательно, 0≤E [Y] ≤1. Думаю, теперь понятно, зачем нам нужно преобразовать a + bX в 0≤f (a + bX) ≤1. 😊

Для логистической регрессии мы выбираем сигмовидную функцию. Мой вопрос: существует множество функций с диапазоном (0,1), тогда почему именно сигмовидная? Давайте выясним вместе, а пока для простоты рассмотрим a = 0 и b = 1.

Таких функций множество, скажем, f (x) = | sin (x) | или f (x) = | x | / (| x | +1). Почему в нашем случае они не используются в качестве функций преобразования?

Да, действительно, они лежат между 0 и 1, но поскольку позже нам потребуется максимизировать функцию правдоподобия с помощью методов оптимизации, поэтому лучше ограничиться везде дифференцируемой функцией. Поэтому я наложил одно ограничение на функции: они должны быть дифференцируемыми всюду и, следовательно, непрерывными. Теперь дайте мне такие функции.

Хорошо, а как насчет того

да. они везде дифференцируемы. Но задумывались ли вы, почему логистическая регрессия называется Обобщенной линейной моделью, а не моделью нелинейной регрессии? Y и X линейно связаны, что означает, что если X увеличивается (уменьшается) на некоторую величину, то Y также увеличивается (уменьшается) или уменьшается (увеличивается). то есть Y и X прямо пропорциональны или обратно пропорциональны, и поскольку мы имеем дело с обобщенной «линейной» моделью, эта связь должна быть отражена, если не полностью, по крайней мере в некотором смысле, в модели.

В перечисленных выше функциях это свойство нарушено. Во второй функции, если X увеличивается с 4 до 5, тогда f (x) увеличивается, а также, если X уменьшается с -4 до -5, тогда также увеличивается f (x). Для функции sin это тоже тривиально.

Поэтому я ставлю еще одно ограничение. Наряду с везде дифференцируемым, непрерывным; функция должна монотонно возрастать. (поскольку мы фактически работаем с a + bX, для уменьшения функции мы соответственно изменим знак b).

Можете ли вы дать мне функцию, которая всюду непрерывна, везде дифференцируема и монотонно возрастает, диапазон равен (0,1), а домен - это целая вещественная линия? Статистика предоставляет множество таких функций, и на самом деле они очень известны и полезны. Что-нибудь поразительное?

Кумулятивные функции распределения (CDF) непрерывных случайных величин

Браво!! Назовите несколько непрерывных случайных величин, которые могут принимать любое значение на всей действительной прямой? И давайте сосредоточимся на стандартных распределениях, то есть со средним 0 и дисперсией 1.

Стандартное нормальное распределение, стандартное логистическое распределение.

Ничего не упомянуть о стандартном нормальном распределении, pdf и cdf стандартного логистического распределения

Давайте посмотрим на другое распределение, обобщенное распределение Gumbel для минимума, это распределение с экстремальными значениями. Его pdf и cdf следующие:

Давайте займемся одним за другим. Для стандартного нормального распределения у нас есть наша модель:

Разве это не модель Пробит?

Для стандартной логистической дистрибуции получаем,

Да, это наша очень знакомая логит-модель. (Отсюда и название логистический, так как оно происходит от логистического распределения)

И, наконец, для обобщенного распределения Гамбеля для минимума,

модель бесплатного журнала.

Во всех перечисленных случаях правая часть линейна по параметру. Отсюда обобщенная «линейная» модель.

Теперь для целей оценки первое, что нам нужно, это набор данных (Y, X) размера = n. В предположении, что Yi ~ Bernoulli (Πi) независимо.

Тогда функция правдоподобия есть

при настройке модели logit,

заменяя то же самое в уравнении правдоподобия, мы можем получить функцию правдоподобия L (a, b) и должны максимизировать ее с помощью некоторых методов оптимизации.

Поздравляю !!!!! Вы вывели логистическую регрессию из чистой интуиции. (и угадайте что, вы вообще не использовали термин «функция связи или функция обратной связи»). Было ли это так сложно? Надеюсь, вам понравилось логическое путешествие.

Если вы не уверены, или у вас есть какие-либо вопросы или сомнения, не стесняйтесь спрашивать в разделе комментариев. или свяжитесь со мной в моем профиле LinkedIn.