Один из наиболее широко используемых алгоритмов машинного обучения

По сути, линейная регрессия говорит нам о взаимосвязи между двумя или более заданными переменными. Он показывает, как одна или несколько переменных (независимых переменных) влияют на нашу целевую переменную (зависимая переменная).

Линейная регрессия в основном используется для прогнозного анализа и моделирования. Он также известен как множественная регрессия, многомерная регрессия, обычный метод наименьших квадратов.

Приведенное выше уравнение суммирует формулу линейной регрессии.

Во время моделирования машинного обучения мы пытаемся предсказать (скажем, продажи / погоду) на основе имеющихся у нас данных.

Мы строим наш график, используя предоставленные точки данных, и пытаемся построить «прямую линию», которая лучше всего описывает точки данных, нанесенные на график.

Поскольку мы пытаемся подобрать лучшую прямую линию, также известную как линия регрессии . Позволяет построить линию регрессии относительно точек данных и вычислить расстояние между каждой точкой от линии, нарисованной, взяв ее квадраты, показанные на рисунке.

Пример из приведенного выше графика: -

Ошибка = (-1,00) ² + (2,00) ² + (- 1,30) ² + (3,75) ² + (- 2,75) ² = 28,315
Это представляет, насколько наша модель отклоняется от фактических точек данных.
Далее, таким же образом мы пытаемся оценить квадраты для разных линий и найти значение для каждой из них.
Для данной строки наименьшее значение определяет нашу ЛИНИЮ НАИЛУЧШЕГО СООТВЕТСТВИЯ для заданных данных.

Точность линейной регрессии обозначается:
1. MAE (средняя абсолютная ошибка)
2. Значение R².

Ключевые термины:

1. Остаточная ошибка: значение, которое мы вычисляем, складывая квадрат каждой ошибки в квадрат. Это также разница между фактическим значением (точки данных) и прогнозируемым значением (линия наилучшего соответствия).

2. Наименьшие квадраты: линия с наименьшей суммой квадратов, также известная как линия наилучшего соответствия, называется наименьшими квадратами.

3. Смещение. Неспособность линии регрессии соответствовать всем точкам данных называется смещением. Примечание. Прямая линия имеет много смещения.
Википедия - Смещение - это упрощающие допущения, сделанные моделью для упрощения аппроксимации целевой функции.

4. Дисперсия: это величина, на которую оценка целевой функции изменится при различных данных. Чем меньше дисперсия, тем лучше линия.

5. Переобучение: когда алгоритм машинного обучения обеспечивает высокую точность с обучающим набором, но низкую точность или отсутствие точности с данными проверки, алгоритм называется переобучением.
Методы уменьшения переобучения: < br /> 1. Увеличение обучающих данных.
2. Снижение сложности модели.
3. Регуляризация гребня и регуляризация лассо
Переоснащение - высокая дисперсия и низкий уровень смещения

6. Недостаточное соответствие. Считается, что статистическая модель или алгоритм машинного обучения не соответствуют требованиям, если не могут уловить основной тренд данных. (Это все равно, что примерить брюки меньшего размера!). Недостаточное оснащение снижает точность нашей модели машинного обучения.
Способы уменьшения недостаточного соответствия:
1. Повышение сложности модели
2. Увеличьте количество функций, выполняя разработку функций.
3. Удалите помехи из данных.
Недостаточное соответствие - высокое смещение и низкая дисперсия

Надеюсь, эта статья предоставила вам хорошую информацию о линейной регрессии. Следите за мной на GitHub и LinkedIn, чтобы получать больше обновлений об алгоритмах машинного обучения.