Все, что вам нужно знать о проверке гипотез в машинном обучении

Что такое проверка гипотез?

Образец посредством исследовательского анализа данных и выводной статистики мы получаем информацию о образце. Теперь мы хотим использовать эту информацию для прогнозирования значений для всего населения.

делается для подтверждения нашего наблюдения за населением с использованием выборочных данных в пределах желаемого уровня ошибки. С помощью проверки гипотез мы можем определить, достаточно ли у нас статистических данных, чтобы сделать вывод, верна ли гипотеза о населении.

Как выполнить проверку гипотез в машинном обучении?

Чтобы доверять вашей модели и делать прогнозы, мы используем проверку гипотез. Когда мы будем использовать выборочные данные для обучения нашей модели, мы делаем предположения о нашей совокупности. Выполняя проверку гипотез, мы проверяем эти предположения на желаемый уровень значимости.

Давайте возьмем случай с регрессионными моделями: когда мы прокладываем прямую линию через модель линейной регрессии, мы получаем наклон и точку пересечения для линии. Проверка гипотез используется для подтверждения того, являются ли наши бета-коэффициенты значимыми в модели линейной регрессии. Каждый раз, когда мы запускаем модель линейной регрессии, мы проверяем, является ли линия значимой или нет, проверяя, является ли коэффициент значительным. Я поделился подробностями о том, как вы можете проверить эти значения в python, ближе к концу этого блога.

Основные этапы проверки гипотезы следующие:

Сформулируйте гипотезу
Определить уровень значимости
Определить тип теста
Рассчитайте значения тестовой статистики и значения p
Принять решение

Теперь давайте подробно рассмотрим шаги:

Формулировка гипотезы

Одним из ключевых шагов для этого является формулирование следующих двух гипотез: представленная как H₀, является первоначальным утверждением, основанным на преобладающих представлениях о населении. Нулевая гипотеза
Альтернативная гипотеза, представленная как H₁, является вызовом нулевой гипотезе. Это утверждение, которое мы хотели бы доказать как верное

Один из основных моментов, который мы должны учитывать при формулировании нулевой и альтернативной гипотез, заключается в том, что нулевая гипотеза всегда направлена на подтверждение существующего понятия. Следовательно, она имеет знак ≥ или , ≤ и =

Определите уровень значимости, также известный как альфа или α для проверки гипотез.

Уровень значимости представляет собой долю среднего значения выборки, лежащую в критических областях. Обычно он устанавливается равным 5% или 0,05, что означает, что существует 5%-ная вероятность того, что мы примем альтернативную гипотезу, даже если наша нулевая гипотеза верна.

Исходя из критичности требования, мы также можем выбрать более низкий уровень значимости 1%.

Определите тестовую статистику и рассчитайте ее значение для проверки гипотез.

Проверка гипотез использует тестовую статистику, которая представляет собой числовую сводку набора данных, которая сводит данные к одному значению, которое можно использовать для выполнения проверки гипотезы.

Выберите тип проверки гипотезы

Мы выбираем тип тестовой статистики на основе предикторной переменной — количественный или категориальный. Ниже приведены некоторые из часто используемых статистических тестов для количественных данных.

Z-статистика — Z-тест

Z-статистика используется, когда выборка имеет нормальное распределение. Он рассчитывается на основе параметров совокупности, таких как среднее значение и стандартное отклонение.
Один выборочный Z-критерий используется, когда мы хотим сравнить среднее значение выборки со средним значением генеральной совокупности.

Тест Z с двумя выборками используется, когда мы хотим сравнить среднее значение двух выборок.

T-статистика — T-тест

T-статистика используется, когда выборка соответствует T-распределению, а параметры совокупности неизвестны. Т-распределение похоже на нормальное распределение, оно короче нормального распределения и имеет более плоский хвост.

Если размер выборки меньше 30 и параметры совокупности неизвестны, мы используем T-распределение. Здесь также мы можем использовать один выборочный Т-критерий и двухвыборочный Т-критерий.

F-статистика — F-тест

Для образцов, включающих три или более групп, мы предпочитаем F-тест. Выполнение Т-теста для нескольких групп увеличивает вероятность ошибки типа 1. В таких случаях используется ANOVA.

Дисперсионный анализ (ANOVA) позволяет определить, различаются ли средние значения трех или более групп. ANOVA использует F-тесты для статистической проверки равенства средних.

F-статистика используется, когда данные имеют положительную асимметрию и следуют F-распределению. F-распределения всегда положительны и смещены вправо.

F = вариация между средними значениями выборки/вариация внутри выборок

Для данных с отрицательным перекосом нам нужно будет выполнить преобразование признаков.

Хи-квадрат Тест

Для категориальных переменных мы будем выполнять тест хи-квадрат.

Ниже приведены два типа тестов хи-квадрат:

Критерий независимости хи-квадрат. Мы используем критерий хи-квадрат, чтобы определить, существует ли значительная связь между двумя категориальными переменными.
Хи-квадрат качества подгонки помогает нам определить, правильно ли данные выборки представляют совокупность.

Решение о вашей модели

Затем тестовая статистика используется для расчета P-значения. P-значение измеряет силу доказательств в поддержку нулевой гипотезы. Если P-значение меньше уровня значимости, мы отклоняем нулевую гипотезу.

если значение p ‹ α, то у нас есть статистически значимые доказательства против нулевой гипотезы, поэтому мы отклоняем нулевую гипотезу и принимаем альтернативную гипотезу.

если p-значение > α, то у нас нет статистически значимых доказательств против нулевой гипотезы, поэтому мы не можем отвергнуть нулевую гипотезу.

Принимая решения, важно понимать, какие ошибки могут возникнуть при тестировании.

Ошибки при принятии решений

Есть два возможных типа ошибок, которые мы можем совершить при проверке гипотез.

1) Ошибка типа 1 — это происходит, когда нулевая гипотеза верна, но мы ее отвергаем. Вероятность ошибки типа I обозначается альфа (α). Ошибка 1-го рода также известна как уровень значимости проверки гипотезы.

2) Ошибка типа 2. Это происходит, когда нулевая гипотеза ложна, но мы не можем ее отвергнуть. Вероятность ошибки II рода обозначается бета (β)

Проверка гипотез в питоне

Библиотека статистических моделей обладает уникальной способностью выполнять и обобщать результаты проверки гипотез вашей модели. Основываясь на переменных ваших функций, вы можете определить, какое тестовое значение релевантно для вашей модели, и принять соответствующие решения.

import statsmodels.api as sm

Чтобы создать подогнанную модель, я использовал метод наименьших квадратов.

lr = sm.OLS(y_train, X_train_lm).fit()

После того, как мы обучили модель, мы можем увидеть сводку тестов с помощью команды

print(lr.summary())

Резюме модели будет выглядеть примерно так, как показано ниже.

С точки зрения проверки гипотез вам нужно обратить внимание на следующие значения, чтобы решить, нужно ли вам уточнять вашу модель.

Вероятность (F-статистика) — F-статистика говорит нам о соответствии регрессии. Вы хотите, чтобы вероятность F-статистики была как можно ниже, чтобы отвергнуть нулевую гипотезу.
P-значение указано в столбце P›|t| — Как было сказано выше, для хорошей модели мы хотим это

Это все о проверке гипотез в этой статье.

Первоначально опубликовано на https://www.analyticsvidhya.com 9 сентября 2021 г.