Определение Википедии: проверка статистической гипотезы — это метод статистического вывода, используемый для определения того, достаточно ли имеющиеся данные подтверждают конкретную гипотезу. Проверка гипотез позволяет нам делать вероятностные утверждения о параметрах совокупности.

Проверка гипотез позволяет нам проверить взаимосвязь между функциями в нашем наборе данных, например, оценить значимость корреляции между переменными. Проводя проверку гипотезы, мы можем определить, существует ли связь между признаками, и сделать выводы о совокупности.

В сценарии выбора функций, когда мы хотим уменьшить функцию и выбрать только те функции, которые более важны для переменной ответа (или могут сказать, что они больше влияют на переменную ответа). Проводя проверку гипотезы, такую ​​как t-критерий или ANOVA, мы можем оценить статистическую значимость связи между каждым признаком и переменной ответа и выбрать только те признаки, которые значительно коррелируют с откликом. Это может привести к повышению производительности модели и повышению ее интерпретируемости, а также к сокращению времени вычислений и переобучения.

Не беспокойтесь о проверке гипотезы, о которой я упоминал ранее, мы изучим ее дальше, реализуя на практике.

Прежде чем перейти к проверке гипотез, мы должны знать несколько терминов, которые помогут нам лучше понять проверку гипотез.

Нулевая гипотеза и альтернативная гипотеза

Нулевая гипотеза — это предположение по умолчанию о том, что объекты не имеют между собой никакой связи. Альтернативная гипотеза — это проверяемое утверждение, противоположное нулевой гипотезе. При проверке гипотезы цель состоит в том, чтобы определить, подтверждают ли данные нулевую гипотезу или альтернативную гипотезу.

P-значение

Значение p — это статистическая мера, которая помогает нам проанализировать, принимается или отвергается нулевая гипотеза. Если p-значение больше 0,05, мы можем сказать, что нулевая гипотеза принята, но если оно меньше 0,05, это дает нам уверенность, чтобы отклонить нулевую гипотезу и принять альтернативную гипотезу. Однако важно отметить, что 0,05 — произвольный статистический порог.

Параметрический и непараметрический статистический тест

В параметрическом статистическом тесте предполагается, что данные распределены нормально, а в непараметрическом статистическом тесте нет предположения о распределении данных.

T-тест и тесты ANOVA являются параметрическими тестами, поэтому они предполагают, что данные нормально распределены. Но не обязательно иметь данные в нормальном распределении, только тест будет не так эффективен для применения. Но если размер выборки соответствует требованиям для каждого анализа, тесты могут давать надежные результаты, даже если ваши непрерывные данные не имеют нормального распределения.

Степень свободы

Степени свободы относятся к максимальному количеству логически независимых значений, то есть значений, которые могут свободно изменяться в выборке данных. Конкретная формула для расчета степеней свободы будет зависеть от проводимого вами статистического теста или анализа.

T-тест

Стьюдент-критерий — это параметрический статистический тест, используемый для сравнения средних значений двух выборок, чтобы определить, есть ли между ними значительная разница. Он ограничен сравнением только двух образцов и не может использоваться для сравнения более двух образцов одновременно.

Анова-тест

Это параметрический статистический тест. Существует два типа тестов ANOVA: однофакторный ANOVA и двусторонний ANOVA. В однофакторном дисперсионном анализе есть только одна независимая переменная. В то время как в двухфакторном дисперсионном анализе есть две независимые переменные, двухфакторный дисперсионный анализ является расширением однофакторного дисперсионного анализа.

Библиотека Scipy. Однофакторный дисперсионный анализ проверяет нулевую гипотезу о том, что две или более групп имеют одинаковое среднее значение генеральной совокупности. Тест применяется к образцам из двух или более групп, возможно, с разными размерами.

Как правило, вы увидите, что тест ANOVA используется для проверки среднего значения трех или более образцов.

Тест хи-квадрат

Тест хи-квадрат — это непараметрический статистический тест. Он используется для определения зависимости или взаимосвязи между категориальными данными.