Введение в линейную регрессию - набор данных sklearn Diabetes Dataset

Все мы знаем уравнение линии, которое мы выучили в старшей школе,

y = mx + c

Если вы это знаете, это буквально означает, что вы знаете уравнение простой линейной регрессии. Часто нам кажется, что такие громкие слова, как «регресс», могут иметь большое значение, хотя они могут быть такими же простыми, как приведенное выше уравнение.

В линейной регрессии

y: переменная, которую нужно предсказать (также известная как Зависимая переменная). Это числовой непрерывный тип данных.

m: здесь коэффициент «m» - это не что иное, как наклон линии.

x: переменная, которая называется независимой переменной.

c: Мы знаем это как постоянное значение, также известное как точка пересечения оси Y (значение «y», когда «x» равно нулю. В основном это означает, что это точка, в которой пересекает вертикальная ось.

При использовании множественной линейной регрессии количество x (предикторов / признаков) будет больше одного. Уравнение будет выглядеть так.

Y = m1x1 + m2x2 + …… + C

Линейная регрессия - это простой, понятный, но очень мощный алгоритм машинного обучения. Его основное предположение состоит в том, что независимые переменные / функции «линейно» связаны с ответной / целевой переменной.

А пока мы сосредоточимся на том, как выполнить линейную регрессию в Python и проанализировать результаты. Набор данных, который мы будем использовать, представляет собой встроенный набор данных под названием «Диабет» в пакете sklearn.

Спасибо за чтение. Если вы хотите узнать больше о темах машинного обучения, подписывайтесь на меня и мотивируйте меня хлопать в ладоши и делиться контентом. Спасибо и удачного обучения!

Введение в линейную регрессию - набор данных sklearn Diabetes Dataset

Вопросы по теме