Машинное обучение: модель регрессии

Что такое машинное обучение?

Это технология, которая позволяет компьютерам, оснащенным алгоритмами, автоматически улучшаться благодаря опыту.
то есть машина учится на данных так же, как люди учатся на своем опыте.

Примечание.

Все методы машинного обучения классифицируются как методы искусственного интеллекта (ИИ); однако не весь ИИ можно считать ОД. Некоторые базовые механизмы, основанные на правилах, можно классифицировать как ИИ, но они не учатся на опыте; следовательно, они не относятся к категории ML.

Разница между машинным обучением и ИИ

Машинное обучение позволяет компьютерам, оснащенным алгоритмами, автоматически улучшаться благодаря опыту, что не является обязательным условием для ИИ.
ИИ — это область исследования, которая позволяет компьютерам учиться без явного программирования.

Типы алгоритмов машинного обучения

Обучение с учителем:алгоритм обучения с использованием размеченных данных.
Обучение без учителя.Алгоритм обучения без размеченных данных. Он пытается обнаружить скрытые закономерности самостоятельно.
Обучение с подкреплением.Алгоритм предпринимает действия, чтобы максимизировать совокупное вознаграждение.

Метод контролируемого обучения

Прошлые данные с метками используются для построения модели.
Регрессия и классификация подпадают под эту категорию.

Неконтролируемый метод обучения

Прошлым данным не присваиваются заранее определенные метки.
Алгоритмы кластеризации подпадают под эту категорию.

Регрессия против классификации

Регрессия:

Метод наблюдения.
Вывод является непрерывным или числовым значением.

Классификация:

Метод под наблюдением.
Выход представляет собой категориальное значение

Модель регрессии

Линия регрессии

мы знаем, что уравнение прямой имеет вид y = mx + c

давайте поймем это, используя следующую диаграмму

Диаграмма выше говорит нам об этом.

C означает, что когда x = 0, каким будет значение y?
M показывает, насколько сильна связь между y и x.

Как найти значение m и c на графике?

я. c легко: посмотрите, где линия пересекает ось Y.
ii. м нужен некоторый расчет

Простая модель линейной регрессии

Уравнение простой модели линейной регрессии выглядит следующим образом:

Приведенное выше уравнение говорит нам о том, что

При увеличении количества X на единицу y увеличивается на ß1 единицу.
(ß1 * 1 = ß1)
также, когда X = 0, значение y равно ß0.

Следующий пример прояснит ваши мысли о простой линейной регрессии:

Заработная плата = ß0 (базовый оклад) + ß1 (прибавка к окладу) * Опыт, поэтому, когда мы присоединяемся к организации в качестве новичка, мы будем получать только базовый оклад, поскольку у нас нет опыта. Тем не менее, по мере увеличения нашего Опыта наша заработная плата будет равняться количеству лет Опыта, умноженному на прирост заработной платы в год.

Терминология

X также называется входной переменной.
Y также называют выходной переменной.

В регрессионной модели мы находим наиболее подходящую линию. Линия наилучшего соответствия — это линия, которая наилучшим образом соответствует заданному точечному графику.

Каков, возможно, хороший критерий для поиска лучшей линии?

Обычный метод наименьших квадратов.
RSS = Сумма квадратов остатков.
Нам нужно минимизировать обычный RSS.

Что подразумевается под градиентным спуском (GD)?

GD — это алгоритм оптимизации, оптимизирующий функцию стоимости. В случае модели линейной регрессии нашей функцией стоимости является RSS (остаточная сумма квадратов), которую необходимо минимизировать. В этом итеративном и рекурсивном подходе вы хотели бы начать с начальных параметров β0 и β1 и итеративно перемещать их значения, чтобы минимизировать функцию стоимости.

Что такое остатки?

Для каждого значения данных у нас есть остаточное значение, которое представляет собой разницу между фактическим значением (Yi) и прогнозируемым значением (ȳ). ei = Yi-ȳ

Теперь нам нужно подобрать значения b0 и b1, чтобы значение RSS было минимальным. т. е. необходимо найти оптимальные значения ß0 и ß1. Итак, вы знаете, что линия наилучшего соответствия получается путем минимизации RSS (остаточной суммы квадратов).

Недостаток RSS

RSS — это абсолютная разница между фактическим y и прогнозируемым y (ȳ). Если единицы фактического y и прогнозируемого y(ȳ) изменятся, RSS изменится. Поэтому нам нужно использовать метод R-квадрата (R²).

Метод R²

Предположим, у вас есть линейная модель, в которой вы не использовали независимую модель, а вместо этого перехватили ее. В этом случае вы можете построить фундаментальную модель, в которой B0 (значение пересечения) равно среднему значению y.

где
RSS = остаточная сумма квадратов
TSS = общая сумма квадратов (которую можно рассчитать по приведенной ниже формуле).

Например, если R²=0,60, это означает, что в данных присутствует 60% дисперсия.
Таким образом, R² должно быть более высоким значением, т. е. это будет лучшее значение.
Значение R² лежит в диапазоне от 0 до 1. (0 ≤ R² ≤ 1).

RSE (остаточная квадратичная ошибка)

Примечания :

Значение коэффициента корреляции лежит в пределах от -1 до +1.
Значение R² находится в диапазоне от 0 до 1, где 1 означает, что дисперсия данных объясняется моделью, а 0 означает, что дисперсия не объясняется моделью. Очевидно, что достичь любого из крайних значений очень трудно.
Если значение коэффициента корреляции отрицательное, например -0,92, то абсолютное значение (0,92) очень велико. Следовательно, X и y сильно коррелированы, но X и y имеют сильную отрицательную корреляцию из-за отрицательного знака.

Допущения линейной регрессии.

Между X и Y существует линейная зависимость.
Члены ошибки обычно распределяются со средним нулем (не X, Y)
Условия ошибки не зависят друг от друга.
Условия ошибки имеют постоянную дисперсию. (гомоскедазиозность)