Это вторая часть серии статей об основах машинного обучения. Пожалуйста, обратитесь к этой ссылке для части 1.

Допущения простой линейной регрессии

Ниже приведены основные допущения линейной регрессии:

  1. Между X и Y существует линейная связь.
  2. Термины ошибок распределяются нормально.
  3. Условия ошибки независимы друг от друга. Изменение одного ошибочного термина не должно влиять на другие ошибочные термины.
  4. Условия ошибки имеют постоянную дисперсию, т. е. дисперсия не должна увеличиваться или уменьшаться при изменении значений ошибки. Кроме того, они не должны следовать какой-либо схеме. Если дисперсия не является постоянной или гомоскедастической, то выводы, сделанные на основе модели, будут ненадежными.

Проверка соответствия модели:

Мы всегда должны убедиться, что подгонка модели действительно хорошая, а не случайная. Есть много способов проверить это.

T-тест:

Стьюдентное распределение также является своего рода нормальным распределением; он также симметричен и одновершинен, но менее сконцентрирован вокруг своей вершины. Т-распределение короче и более плоское вокруг центра, чем нормальное распределение.

Два простых условия для определения того, когда использовать t-статистику:

  • Стандартное отклонение населения неизвестно
  • Размер выборки меньше 30

Если вышеуказанные условия соблюдены, мы можем использовать T-Test:

Формула:

t=x–μs/√n

Используя формулу, мы можем получить значение и сравнить значение из таблицы T и отклонить или не отклонить гипотезу.

Вы можете использовать эту ссылку для нахождения значения T для заданного уровня достоверности.

Дисперсионный анализ (ANOVA)

Тест ANOVA — это способ выяснить, значимы ли результаты опроса или эксперимента. Другими словами, они помогают вам выяснить, нужно ли вам отклонить нулевую гипотезу или принять альтернативную гипотезу.

По сути, вы тестируете группы, чтобы увидеть, есть ли между ними разница.

Есть два основных типа: односторонние и двухсторонние. Двусторонние тесты могут быть с повторением или без него.

  • Однофакторный дисперсионный анализ между группами: используется, когда вы хотите протестировать две группы, чтобы увидеть, есть ли между ними разница.
  • Двухсторонний дисперсионный анализ без повторения: используется, когда у вас есть одна группа, и вы дважды тестируете эту же группу. Например, вы тестируете одну группу людей до и после того, как они примут лекарство, чтобы увидеть, работает оно или нет.
  • Двухсторонний дисперсионный анализ с репликацией: две группы и члены этих групп делают несколько вещей. Например, две группы пациентов из разных больниц пробуют два разных метода лечения.

Квартет Anscombe: Визуализируйте свои данные

Это группа из четырех наборов данных, которые имеют одну и ту же сводную статистику, но совершенно по-разному выглядят на графиках.

Перед выполнением линейной регрессии мы всегда должны визуализировать данные и не всегда доверять сводной статистике, поскольку она чувствительна к выбросам и моделирует только линейные отношения.

ИСТОЧНИК: Дж. МАТЕЙКА И Г. ФИТЦМОРИС (2017 г.)

Чтобы узнать больше об этом, перейдите по этой ссылке.

F Статистика

Мы можем определить F-статистику как:

F = вариация между средними значениями выборки/вариация внутри выборок

В Python, используя statsmodel.api, мы можем вычислить обычный наименьший квадрат, как показано ниже:

model = sm.OLS(y, X)
results = model.fit()
print(results.summary())

Здесь мы видим, что значение вероятности (F-статистика) меньше 0,5, следовательно, модель является значимой и не просто соответствует любой шанс,

Здесь Prob (F-статистика) означает p-значение F-статистики.

R-квадрат:

Значение R-квадрата варьируется от 0 до 1, где 1 соответствует идеальному соответствию точкам данных, а 0 — наихудшему соответствию точкам данных.

Значение R-квадрата говорит вам только о том, какая дисперсия объясняется прямой линией, которую вы подогнали. Это ничего не говорит о значении соответствия. Просто может случиться так, что модель с большим значением R-квадрата все еще может быть незначительной, то есть просто случайной подгонкой.