Логистическая регрессия и ее математическая реализация

Каждый алгоритм машинного обучения лучше всего работает при заданном наборе условий. Чтобы обеспечить хорошую производительность, мы должны знать, какой алгоритм использовать в зависимости от решаемой проблемы. Вы не можете использовать один конкретный алгоритм для всех задач. Например: алгоритм линейной регрессии не может применяться к категориальной зависимой переменной. Здесь на помощь приходит логистическая регрессия.

Вам должно быть интересно, что такое логистическая регрессия? Чем он отличается от других алгоритмов? Почему логистическая регрессия называется «регрессией», если она не моделирует непрерывные результаты?

Чтобы ответить на все эти интересные вопросы и изучить некоторые математические основы логистической регрессии, здесь, в этом блоге, мы собираемся изучить:

Логистическая регрессия?

Что такое логистическая регрессия?
Кривая логистической регрессии
Когда использовать логистическую регрессию?
Используемые кейсы:

2. Линейная регрессия против логистической.

3. Математическая реализация.

Пороговое значение
Уравнение логистической регрессии

4. Почему логистическая регрессия называется «регрессией», если она не моделирует непрерывные результаты?

5. Как линейную регрессию можно преобразовать в логистическую регрессию?

6. Плюсы и минусы логистической регрессии.

Логистическая регрессия

Логистическая регрессия - это популярная статистическая модель, используемая для бинарной классификации, то есть для прогнозов типа то или иное, да или нет, A или B и т. д.

Однако логистическую регрессию можно использовать для классификации нескольких классов, но здесь мы сосредоточимся на ее простейшем применении. Это один из наиболее часто используемых алгоритмов машинного обучения для двоичных классификаций, который преобразует входные данные в 0 или 1. Например,

0: отрицательный класс
1: положительный класс

Ниже приведены некоторые примеры классификации:

Электронная почта: спам / не спам
Онлайн-транзакции: мошеннические / не мошеннические
Опухоль: злокачественная / незлокачественная.

Что такое логистическая регрессия?

Логистическая регрессия - это подходящий регрессионный анализ, который следует проводить, когда зависимая переменная имеет двоичное решение. Он выдает результаты в двоичном формате, который используется для прогнозирования результата категориальной зависимой переменной. Он дает дискретные выходы в диапазоне от 0 до 1.

Кривая логистической регрессии

Функция g (z) - это логистическая функция, также известная как сигмоидальная функция.

Логистическая функция имеет асимптоты в точках 0 и 1 и пересекает ось Y в точке 0,5.

Когда использовать логистическую регрессию?

Логистическая регрессия используется, когда входные данные необходимо разделить на «две области» линейной границей. Точки данных разделены линейной линией, как показано:

По количеству категорий логистическую регрессию можно классифицировать как:

биномиальная: целевая переменная может иметь только 2 возможных типа: «0» или «1», которые могут представлять «выигрыш» против «проигрыша», «прошел» против «не прошел», «мертв» против «жив». ", и т.д.
мультиномиальная: целевая переменная может иметь 3 или более возможных типа, которые не упорядочены (т. е. типы не имеют количественного значения), например «болезнь A» против «болезни B» против «болезни C».
порядковый: он имеет дело с целевыми переменными с упорядоченными категориями. Например, результат теста можно разделить на следующие категории: «очень плохо», «плохо», «хорошо», «очень хорошо». Здесь каждой категории можно присвоить балл 0, 1, 2, 3.

Мы можем проверить точность или качество подгонки модели с помощью различных методов, таких как точность, прецизионность, оценка FI, кривая ROC, матрица неточностей и т. Д.

Используемые кейсы:

(i) Прогноз погоды: в логистической регрессии мы предскажем, будет ли облачно или нет, дождь или нет. Тогда как в линейной регрессии в этом случае мы бы предсказали, какова температура.

(ii) Определить болезнь: С помощью логистической регрессии мы предскажем, заболели или нет.

Линейная регрессия против логистической

Здесь вы можете ясно видеть, что для linear он образует прямую линию, а диапазон также может быть больше 1. В то время как для логистики он образует форму S (сигмовидной) кривой, причина в том, что все значения меньше 0 и больше 1 исключены. .

Математическая реализация

Значения на графике логистической регрессии находятся в диапазоне от 0 до 1.

→ Пороговое значение

Здесь мы представляем порог. Теперь давайте посмотрим, что понимать порог на примере.

См. Диаграмму выше, пороговое значение принято равным 0,5 и даны два условия.

1) Если значение ›0,5, то значение округляется до 1.

2) Если значение ‹0,5, то значение округляется до 0.

Чтобы получить кривую, нам нужно составить уравнение.

→ Уравнение логистической регрессии

Уравнение логистической регрессии выводится из уравнения прямой линии.

Уравнение прямой - для более чем одной независимой переменной.

Где c = константа,

B1, B2,… = уклоны,

X1, X2, .. = независимые значения

Y = зависимая переменная

Давайте выведем уравнение логистической регрессии:

Теперь, чтобы получить диапазон от 0 до бесконечности, давайте преобразуем Y

Давайте трансформируем его дальше, чтобы получить диапазон от - (бесконечность) до + (бесконечность)

Почему логистическая регрессия называется «регрессией», если она не моделирует непрерывные результаты?

Логистическая регрессия относится к категории контролируемого обучения; он измеряет взаимосвязь между категориальной зависимой переменной и одной или несколькими независимыми переменными путем оценки вероятностей с использованием логистической / сигмоидной функции.

Несмотря на название «логистическая регрессия», оно не используется для решения задачи регрессии, когда задача состоит в том, чтобы предсказать результат с реальной оценкой. Это задача классификации, которая используется для прогнозирования двоичного результата (1/0, -1/1, Истина / Ложь) с учетом набора независимых переменных.

Логистическая регрессия немного похожа на линейную регрессию или мы можем рассматривать ее как обобщенную линейную модель.

В линейной регрессии мы прогнозируем выход y с действительным знаком на основе взвешенной суммы входных переменных.

y = c + x1 ∗ w1 + x2 ∗ w2 + x3 ∗ w3 …… .. + xn ∗ wny

=c+x1∗w1+x2∗w2+x3∗w3+……..+xn∗wn

Целью линейной регрессии является оценка значений коэффициентов модели c, w1, w2, w3… .wn, подгонка обучающих данных с минимальной квадратичной ошибкой и прогнозирование выходных данных y.

Логистическая регрессия делает то же самое, но с одним дополнением. Результат прогоняется через специальную нелинейную функцию, называемую логистической функцией или сигмоидной функцией, для получения выходного значения y.

y = логистический (c + x1 ∗ w1 + x2 ∗ w2 + x3 ∗ w3 …… .. + xn ∗ wn) y

= логистический (c + x1 ∗ w1 + x2 ∗ w2 + x3 ∗ w3 + …… .. + xn ∗ wn)

y=1/1+e[−(c+x1∗w1+x2∗w2+x3∗w3+……..+xn∗wn)]y

=1/1+e[−(c+x1∗w1+x2∗w2+x3∗w3+……..+xn∗wn)]

Сигмоидальная / логистическая функция задается следующим уравнением.

y=1/1+e−x

Мораль истории, классификация и регресс - это не то, что мы думаем, а все дело в проблемах, которые мы пытаемся решить. Затем мы можем просто рассматривать выходные данные классификатора как регрессию, если мы заботимся о вероятностях, а не о двоичных выходных данных, а затем мы используем метрики регрессии для оценки нашей модели.

Как линейную регрессию можно преобразовать в логистическую регрессию?

Классификатор логистической регрессии может быть получен по аналогии с гипотезой линейной регрессии, которая:

Однако гипотеза логистической регрессии обобщает гипотезу линейной регрессии, поскольку в ней используется логистическая функция:

Результатом является гипотеза логистической регрессии:

Функция g (z) - это логистическая функция, также известная как сигмоидальная функция.

Плюсы и минусы логистической регрессии

Многие из плюсов и минусов модели линейной регрессии также применимы к модели логистической регрессии. Хотя логистическая регрессия широко используется многими людьми для решения различных типов проблем, она не может поддерживать свою производительность из-за различных ограничений, а также другие модели прогнозирования обеспечивают лучшие результаты прогнозирования.

Плюсы

Модель логистической регрессии не только действует как модель классификации, но и дает вам вероятности. Это большое преимущество перед другими моделями, где они могут дать только окончательную классификацию. Знание того, что экземпляр имеет вероятность 99% для класса по сравнению с 51%, имеет большое значение. Логистическая регрессия хорошо работает, когда набор данных линейно разделяется.
Логистическая регрессия не только дает меру того, насколько релевантен предиктор (размер коэффициента), но также и направление его ассоциации (положительное или отрицательное). Мы видим, что логистическую регрессию проще реализовать, интерпретировать и очень эффективно обучать.

Минусы

Логистическая регрессия может пострадать от полного разделения. Если есть функция, которая идеально разделяет два класса, модель логистической регрессии больше не может быть обучена. Это связано с тем, что вес для этой функции не будет сходиться, потому что оптимальный вес будет бесконечным. Это действительно немного прискорбно, потому что такая функция действительно очень полезна. Но вам не нужно машинное обучение, если у вас есть простое правило, разделяющее оба класса. Проблема полного разделения может быть решена путем введения штрафов за веса или определения априорного распределения вероятностей весов.
Логистическая регрессия менее подвержена переобучению, но она может переобучаться в многомерных наборах данных, и в этом случае следует рассмотреть методы регуляризации, чтобы избежать переобучения в таких сценариях.

Вывод

Логистическая регрессия предоставляет полезные средства для моделирования зависимости переменной двоичного ответа от одной или нескольких независимых переменных, причем последние могут быть категориальными или непрерывными. Подгонку полученной модели можно оценить с помощью ряда методов.

На этом мы подошли к концу статьи. Спасибо за то, что прочитали это.

Вы можете похлопать, если понравилась эта статья… ЭТО БЕСПЛАТНО.