Освоение линейной регрессии: полное руководство для специалистов по данным

Освойте основы линейной регрессии и улучшите свои навыки работы с данными.

Подпишитесь, чтобы получать почту всякий раз, когда я публикую.

Получать электронное письмо всякий раз, когда Рахул Сингх публикует.
Получать электронное письмо, когда Рахул Сингх публикует. Зарегистрировавшись, вы создадите учетную запись Medium, если у вас еще нет…medium.com

Вы попали на этот пост в блоге, тогда я на 100% уверен, что вы уже слышали о линейной регрессии, и теперь вы хотите глубже понять линейную регрессию. Когда вы начинаете свое путешествие в области машинного обучения, первым алгоритмом, с которым вы сталкиваетесь, является алгоритм линейной регрессии. Почему я это сказал, потому что на сегодняшний день это самый простой алгоритм машинного обучения для новичка. Это дает вам общее представление о том, что такое машинное обучение и как оно работает за кулисами. Таким образом, этот алгоритм идеально подходит для внедрения машинного обучения, а также для тех, кто только начал свой путь в области искусственного интеллекта или машинного обучения.

Что такое линейная регрессия?

Линейная регрессия — это алгоритм, который пытается найти линейную связь между зависимой (Y) и независимой (X) переменными.

На приведенном выше рисунке синие точки — это точки данных (наблюдения), а красная линия — это линия наилучшего соответствия для точек данных.

Зависимая переменная — это переменная, которая прогнозируется или объясняется, а независимые переменные — это переменные, которые используются для прогнозирования. Линейная зависимость между зависимой и независимой переменными означает, что изменение зависимой переменной можно предсказать на основе изменения независимой переменной.

Говоря простыми математическими терминами, линейная регрессия пытается подобрать линейную кривую на наборе данных и предсказать результат зависимой переменной. Линейная регрессия делает все прогнозы через подобранную кривую (линию наилучшего соответствия). Следовательно, название этого алгоритма — линейная регрессия. Линейная регрессия предполагает, что связь между зависимой (Y) переменной и независимой (X) переменной является линейной.

Для простого алгоритма линейной регрессии мы берем уравнение прямой линии и подгоняем его к данным.

Здесь m — наклон линии, а c — постоянная величина. m и c — параметры простой линейной регрессии. Эта регрессия называется одномерной линейной регрессией, потому что есть только независимая переменная x.

Когда имеется более одной независимой переменной (x), это называется Многомерная линейная регрессия.

Чтобы понять, как работает линейная регрессия, полезно использовать пример. Допустим, мы хотим предсказать количество мороженого, которое человек съест за неделю, исходя из температуры на улице. Количество съеденного мороженого является зависимой переменной, а температура — независимой переменной. Если мы нанесем данные на график, мы увидим закономерность, согласно которой чем выше температура, тем больше съедается мороженого. Это потому, что люди склонны жаждать холодных угощений, когда на улице жарко.

Так как же нам предсказать результат зависимой переменной?

Как мы все знаем, линейная регрессия — это контролируемый алгоритм машинного обучения. Когда дело доходит до алгоритмов машинного обучения с учителем, первый шаг, который мы делаем, — это обучение нашей модели. Здесь мы пытаемся предсказать значение Y, используя только одну переменную X.

Шаги для обучения модели линейной регрессии:

Соберите данные. Первым шагом в обучении модели линейной регрессии является сбор данных, которые вы будете использовать для ее обучения. Эти данные должны включать как независимые переменные, так и зависимую переменную.
Подготовка данных. Когда у вас есть данные, вам нужно будет подготовить их для обучения. Это включает в себя очистку и форматирование данных, а также их разделение на обучающие и тестовые наборы. Учебный набор будет использоваться для обучения модели, а тестовый набор — для проверки ее производительности.
Обучение модели. Далее вам нужно будет обучить модель, используя обучающие данные. Это включает в себя поиск уравнения, которое лучше всего соответствует данным, с использованием метода, называемого «регрессия наименьших квадратов».
Протестируйте модель. После обучения модели вы можете использовать тестовые данные для оценки ее производительности. Это включает в себя использование модели для прогнозирования тестовых данных и сравнения прогнозов с фактическими значениями.
Точная настройка модели. Если производительность модели не соответствует вашим ожиданиям, вы можете попробовать настроить параметры модели или добавить дополнительные функции для повышения ее точности.

Что такое функция затрат?

Функция стоимости определяет, насколько мы можем полагаться на прогноз нашей модели. Под надежностью я подразумеваю точность, которую мы можем ожидать от нашей модели, когда она предсказывает значения новых данных. Он рассчитывается путем получения разницы между прогнозируемыми значениями и фактическими значениями, а затем усреднения этих различий по всем точкам данных.

Формула функции стоимости —

Терминология в функции стоимости —

n — Количество наблюдений в наборе данных. Здесь n — количество точек данных или наблюдений, которые мы обучили нашей модели.
y` — тире y (-) — прогнозируемое значение.
y^i — Фактическое значение i-го наблюдения.

Это наиболее распространенная функция стоимости в линейной регрессии, которая называется функция среднеквадратичной ошибки (MSE). Она называется функцией ошибки, потому что мы берем разницу между фактическими значениями и прогнозируемыми значениями. Когда мы обучаем нашу модель, мы хотим, чтобы значение функции стоимости было минимальным, чтобы модель могла делать точные прогнозы. Таким образом, основная цель функции стоимости — проверить точность модели.

3 ключевых термина в статистике: среднее, медиана и мода.
Если вы хотите узнать больше о статистике, вам нужно знать три ключевых термина: среднее, медиана и мода. В то время как у каждого из них есть…medium.com

Что такое настройка параметров?

Настройка параметров — это процесс, в котором мы настраиваем значения параметров, чтобы получить наиболее точные прогнозы. Это делается путем корректировки коэффициентов независимых переменных в уравнении модели.

Существуют различные методы, которые можно использовать для настройки параметров модели линейной регрессии.

Поиск по сетке
Случайный поиск
Градиентный спуск

Предположения линейной регрессии

Машинное обучение основано на предположениях. Но это зависит от того, как мы предполагаем решение проблемы. Выбирая алгоритм линейной регрессии для решения любой задачи, мы делаем определенные предположения о данных. Ниже приведены предположения для алгоритмов линейной регрессии:

Линейность. Первое и наиболее важное допущение линейной регрессии заключается в том, что связь между зависимой переменной (X) и независимой переменной (Y) является линейной. Если связь не является линейной, то использование линейной регрессии для выбора модели не является хорошим выбором. Линейность данных можно проверить с помощью графика рассеяния данных.
Мультиколлинеарность. Это допущение означает, что мультиколлинеарность отсутствует или значительно меньше. Мультиколлинеарность означает, что наблюдения сильно коррелированы. Нам нужна высокая корреляция между независимыми и зависимыми переменными. Не должно быть никакой корреляции между независимыми переменными, потому что модель не сможет понять разницу между ними.
Независимость. Точки данных должны быть независимы друг от друга. Независимость означает отсутствие связи между зависимыми и независимыми переменными.
Нормальность. Это допущение означает, что точки данных (наблюдения) распределяются нормально. Лучший способ найти нормальность данных — использовать график QQ.

Все, что вам нужно знать о стандартном отклонении и дисперсии
Итак, что такое стандартное отклонение и дисперсия? Где они используются и для чего? Как их использовать для анализа данных?medium.com

Различные типы линейной регрессии —

Простая линейная регрессия. В этой линейной регрессии для прогнозирования зависимой переменной (Y) используется только одна независимая переменная (X).
Множественная линейная регрессия. Несколько независимых переменных (X) используются для прогнозирования зависимой переменной (Y).
Полиномиальная регрессия. В этой регрессии полиномиальная функция используется для моделирования связи между независимой переменной (X) и зависимой переменной (Y).
Регрессия гребня — эта регрессия использует регуляризацию для предотвращения переобучения. Функция штрафа добавляется к функции ошибки, чтобы удалить большие коэффициенты в модели.
Лассо-регрессия. Это похоже на гребневую регрессию, но снижает абсолютные значения коэффициентов в модели.

Я надеюсь, что вы нашли этот пост полезным и информативным. Если вам понравилось ее читать, поделитесь ею с друзьями и коллегами. Обмен знаниями и информацией — один из лучших способов расти и учиться вместе.