10 САМЫХ ПОПУЛЯРНЫХ СТАТИСТИЧЕСКИХ МЕТОДОВ ПРОВЕРКИ ГИПОТЕЗ С ИСПОЛЬЗОВАНИЕМ PYTHON

Проверка гипотез является важным инструментом в логической статистике для определения того, каким может быть значение параметра совокупности. Мы часто делаем этот вывод на основе выборочного анализа данных.

В основе проверки гипотез лежат два атрибута:

Нулевая гипотеза: H

Альтернативная гипотеза: H1

Типы методов проверки гипотез

а . Критерий хи-квадрат ( корреляционные тесты )

б. Анализ дисперсионного теста (ANOVA) (Параметрические статистические тесты гипотез)

в. Критерий Стьюдента (параметрические статистические тесты гипотез)

д. Тест Шапиро-Уилка (тесты на нормальность)

е. Тест Д’Агостино K² (тесты на нормальность)

ф. Коэффициент корреляции Пирсона ( Корреляционные тесты )

г. Ранговая корреляция Спирмена (Корреляционные тесты)

час H-критерий Крускала-Уоллиса (Непараметрические статистические тесты гипотез)

я. Тест Фридмана (Непараметрические статистические тесты гипотез)

Дж. U-критерий Манна-Уитни (непараметрические статистические тесты гипотез)

Хи-квадрат тест

Тест хи-квадрат хорошо известен даже тем, кто начинает со статистического машинного обучения. Здесь этот тест используется для проверки того, связаны ли две категориальные переменные или независимы. И предполагается, что наблюдения, используемые при расчете таблицы непредвиденных обстоятельств, являются независимыми.

Проверяет, связаны или независимы две категориальные переменные.

Предположения

Наблюдения, используемые при расчете таблицы непредвиденных обстоятельств, являются независимыми.
25 или более примеров в каждой ячейке таблицы сопряженности.

Интерпретация

H0: две выборки независимы.
H1: существует зависимость между образцами.

Код Python из

scipy.stats импортирует chi2_contingency

таблица = …
stat, p, dof, ожидаемая = chi2_contingency(table)’

Пример

Тест дисперсионного анализа (ANOVA)

ANOVA — еще один широко популярный тест, который используется для проверки того, насколько две выборки независимы друг от друга. Здесь предполагается, что наблюдения следуют нормальному распределению без какого-либо изменения дисперсии.

Проверяет, существенно ли различаются средние значения двух или более независимых выборок.

Предположения

Наблюдения в каждой выборке независимы и одинаково распределены (iid).
Наблюдения в каждой выборке распределены нормально.
Наблюдения в каждой выборке имеют одинаковую дисперсию.

Интерпретация

H0: средние значения выборок равны.
H1: одно или несколько средних значений выборок не равны.

Код Python

из scipy.stats импортировать f_oneway
data1, data2, … = …
stat, p = f_oneway (data1, data2, …)

пример

t-критерий Стьюдента

Проверяет, существенно ли различаются средние значения двух независимых выборок.

Наблюдения в каждой выборке независимы и одинаково распределены (iid). Наблюдения в каждой выборке распределены нормально. Наблюдения в каждой выборке имеют одинаковую дисперсию.

Проверяет, существенно ли различаются средние значения двух парных выборок.

Предположения

Наблюдения в каждой выборке независимы и одинаково распределены (iid).
Наблюдения в каждой выборке распределены нормально.
Наблюдения в каждой выборке имеют одинаковую дисперсию.
Наблюдения по каждой выборке парные.

Интерпретация

H0: средние значения выборок равны.
H1: средние значения выборок не равны.

код питона

из scipy.stats импортировать ttest_ind
data1, data2 = …
stat, p = ttest_ind(data1, data2)

Пример

Тест Шапиро-Уилка

Этот тест используется для проверки того, имеют ли выборочные данные распределение Гаусса.

Проверяет, имеет ли выборка данных распределение Гаусса.

Предположения

Наблюдения в каждой выборке независимы и одинаково распределены (iid).

Интерпретация

H0: выборка имеет распределение Гаусса.
H1: выборка не имеет распределения Гаусса.

Код Python

из scipy.stats импортировать shapiro
data1 = ….
stat, p = shapiro(данные)

Пример

K²-тест Д’Агостино

Подобно тесту Шапиро-Уилка, он также используется для проверки распределения по Гауссу в выборках данных.

Проверяет, имеет ли выборка данных распределение Гаусса.

Предположения

Наблюдения в каждой выборке независимы и одинаково распределены (iid).

Интерпретация

H0: выборка имеет распределение Гаусса.
H1: выборка не имеет распределения Гаусса.

Код Python

из scipy.stats import normaltest
data1 = ….
stat, p = normaltest(data)

Пример

Коэффициент корреляции Пирсона

Статистический тест для проверки корреляции между двумя выборками и наличия у них линейной зависимости.

Проверяет, имеют ли две выборки линейную зависимость.

Предположения

Наблюдения в каждой выборке независимы и одинаково распределены (iid).
Наблюдения в каждой выборке распределены нормально.
Наблюдения в каждой выборке имеют одинаковую дисперсию.

Интерпретация

H0: две выборки независимы.
H1: существует зависимость между образцами.

Код Python

из scipy.stats импортировать pearsonr
data1, data2 = …
corr, p = pearsonr(data1, data2)

Ранговая корреляция Спирмена

Предполагается, что наблюдения в каждой выборке могут быть ранжированы для проверки того, является ли связь монотонной или нет.

Проверяет, имеют ли две выборки монотонную связь.

Предположения

Наблюдения в каждой выборке независимы и одинаково распределены (iid).
Наблюдения в каждой выборке можно ранжировать.

Интерпретация

H0: две выборки независимы.
H1: существует зависимость между образцами.

Код Python

из scipy.stats import spearmanr
data1, data2 = …
corr, p = spearmanr(data1, data2)

U-тест Манна-Уитни

Непараметрический статистический тест гипотезы для проверки независимых выборок и определения того, равны ли распределения или нет.

Проверяет, равны ли распределения двух независимых выборок.

Предположения

Наблюдения в каждой выборке независимы и одинаково распределены (iid).
Наблюдения в каждой выборке можно ранжировать.

Интерпретация

H0: распределения обеих выборок равны.
H1: распределения обеих выборок не равны.

Код Python

from scipy.stats import mannwhitneyu data1, data2 = ... stat, p = mannwhitneyu(data1, data2)

Пример

H-тест Крускала-Уоллиса

Как и предыдущие тесты, тест гипотезы Крускала-Уоллиса также делает те же предположения относительно распределения и ранжирования наблюдений в каждой выборке. И тест проводится для проверки независимости наблюдений друг от друга.

Проверяет, равны ли распределения двух или более независимых выборок.

Предположения

Наблюдения в каждой выборке независимы и одинаково распределены (iid).
Наблюдения в каждой выборке можно ранжировать.

Интерпретация

H0: распределения всех выборок равны.
H1: распределения одной или нескольких выборок не равны.

Код Python

from scipy.stats import kruskal data1, data2, ... = ... stat, p = kruskal(data1, data2, ...)

Пример

Тест Фридмана

Тест Фридмана проверяет, равны ли распределения двух или более парных выборок.

Проверяет, равны ли распределения двух или более парных выборок.

Предположения

Наблюдения в каждой выборке независимы и одинаково распределены (iid).
Наблюдения в каждой выборке можно ранжировать.
Наблюдения по каждой выборке парные.

Интерпретация

H0: распределения всех выборок равны.
H1: распределения одной или нескольких выборок не равны.

Код Python

from scipy.stats import friedmanchisquare data1, data2, ... = ... stat, p = friedmanchisquare(data1, data2, ...)

Пример

10 САМЫХ ПОПУЛЯРНЫХ СТАТИСТИЧЕСКИХ МЕТОДОВ ПРОВЕРКИ ГИПОТЕЗ С ИСПОЛЬЗОВАНИЕМ PYTHON

Хи-квадрат тест

Тест дисперсионного анализа (ANOVA)

t-критерий Стьюдента

Тест Шапиро-Уилка

K²-тест Д’Агостино

Коэффициент корреляции Пирсона

Ранговая корреляция Спирмена

U-тест Манна-Уитни

H-тест Крускала-Уоллиса

Тест Фридмана

Вопросы по теме