Тест нормальности используется для проверки того, имеет ли переменная или выборка нормальное распределение.

Прежде чем говорить о тесте нормальности, давайте сначала обсудим нормальное распределение и почему оно так важно?

Нормальное распределение

Нормальное распределение, также известное как распределение Гаусса, представляет собой функцию вероятности, которая описывает, как распределяются значения переменной. Это симметричное распределение, при котором большинство наблюдений приходится на центральный пик, а вероятности для значений, находящихся дальше от среднего сужения, одинаково в обоих направлениях с меньшим количеством выбросов на верхнем и нижнем концах диапазона данных.

Термин «Гауссово распределение» относится к немецкому математику Карлу Фридриху Гауссу.

Нормальное распределение имеет несколько важных свойств:

  1. среднее значение, медиана и мода - все это центр распределения.
  2. распределение имеет форму колокола
  3. ≈68% данных находится в пределах 1 стандартного отклонения от среднего, ≈95% данных попадает в пределы 2 стандартных отклонений от среднего и ≈99,7% данных попадает в пределы 3 стандартных отклонений от среднего.

Почему это так важно

Нормальное распределение является наиболее важным распределением вероятностей в статистике, потому что

  1. Многие процессы в природе следуют нормальному распределению. Некоторые из примеров - возраст, рост, вес и артериальное давление человека.
  2. Линейная регрессия предполагает, что ошибки или остатки подчиняются нормальному распределению.
  3. Некоторые алгоритмы машинного обучения, такие как линейный дискриминантный анализ и квадратичный дискриминантный анализ, основаны на предположении нормального распределения.

Тесты на нормальность

В статистике тесты нормальности используются для проверки того, получены ли данные из распределения Гаусса или, проще говоря, если переменная или в выборке имеет нормальное распределение.

Есть два способа проверить нормальность:

  1. Графики для проверки нормальности
  2. Статистические тесты на нормальность

1. Графики для проверки нормальности

Для проверки нормальности переменной можно использовать различные графики. Используя графики / графики, мы можем визуально увидеть нормальность, но графики не очень точны как статистические методы.

1.Q Q или график квантиля-квантиля

Он отображает два набора квантилей друг против друга, то есть теоретические квантили против фактических квантилей переменной.

Если наши данные получены из нормального распределения, мы должны увидеть все точки, расположенные на прямой линии.

2. Коробчатая диаграмма

Коробчатая диаграмма, также известная как диаграмма прямоугольников и усов, - еще один способ визуализировать нормальность переменной. Он отображает распределение данных на основе пятизначной сводки, то есть минимума, первого квартиля (Q1), медианы (Q2), третьего квартиля (Q3) и максимума.

Если ваша переменная имеет нормальное распределение, мы должны увидеть среднее и медиану в центре.

3. Гистограмма

Один из популярных и часто используемых графиков для визуализации распределения данных - это гистограмма. Он также позволяет нам проверять данные на предмет их выбросов, асимметрии и т. Д. Он разделяет данные на ячейки равной ширины. Каждая ячейка отображается в виде полосы, и высота полосы зависит от количества точек данных в этой ячейке.

Если ваша переменная имеет нормальное распределение, мы должны увидеть кривую колокола.

2. Статистические тесты на нормальность

С другой стороны, существует множество статистических тестов, чтобы проверить, является ли распределение переменной нормальным / гауссовским. В этом разделе я не буду говорить о математике, а покажу вам код Python для каждого теста.

  1. Тест Шапиро-Уилка

Начнем с теста Шапиро-Уилка. Это самый мощный тест для проверки нормальности переменной. Он был предложен в 1965 году Самуэлем Сэнфордом Шапиро и Мартином Уилком.

  • Если p-значение ≤ 0,05, то мы отклоняем нулевую гипотезу, то есть предполагаем, что распределение нашей переменной не является нормальным / гауссовым.
  • Если p-значение> 0,05, то мы не можем отклонить нулевую гипотезу, т.е. мы предполагаем, что распределение нашей переменной является нормальным / гауссовским.

2. К-квадрат Д’Агостино

К-квадрат тест Д’Агостино проверяет нормальность переменной на основе асимметрии и эксцесса. Он был назван Ральфом Д’Агостино.

Асимметрия - это мера симметрии.

Эксцесс - это показатель того, являются ли данные с тяжелым или легким хвостом по сравнению с нормальным распределением.

  • Если p-значение ≤ 0,05, то мы отклоняем нулевую гипотезу, то есть предполагаем, что распределение нашей переменной не является нормальным / гауссовым.
  • Если p-значение> 0,05, то мы не можем отклонить нулевую гипотезу, т.е. мы предполагаем, что распределение нашей переменной является нормальным / гауссовским.

3. Тест на нормальность Андерсона-Дарлинга

Тест нормальности Андерсона-Дарлинга - это еще один общий тест на нормальность, предназначенный для определения того, поступают ли данные из указанного распределения, в нашем случае из нормального распределения. Он был разработан в 1952 году Теодором Андерсоном и Дональдом Дарлингом.

Он дает диапазон критических значений, при котором нулевая гипотеза может быть не отклонена, если вычисленная статистика меньше критического значения. В нашем случае на каждом уровне значимости данные имеют гауссовское распределение.

4. Тест нормальности хи-квадрат

Другой способ проверить нормальность переменной - использовать критерий нормальности хи-квадрат. Он не так популярен, как другие методы.

  • Если p-значение ≤ 0,05, то мы отклоняем нулевую гипотезу, то есть предполагаем, что распределение нашей переменной не является нормальным / гауссовым.
  • Если p-значение> 0,05, то мы не можем отклонить нулевую гипотезу, т.е. мы предполагаем, что распределение нашей переменной является нормальным / гауссовским.

5. Тест Лиллиэфорса на нормальность

Тест Лиллиэфорса - это тест на нормальность, основанный на тесте Колмогорова – Смирнова. Как и все вышеперечисленные методы, этот тест используется для проверки того, поступают ли данные из нормального распределения. Он назван в честь Хьюберта Лиллиефорса, профессора статистики Университета Джорджа Вашингтона.

  • Если p-значение ≤ 0,05, то мы отклоняем нулевую гипотезу, то есть предполагаем, что распределение нашей переменной не является нормальным / гауссовым.
  • Если p-значение> 0,05, то мы не можем отклонить нулевую гипотезу, т.е. мы предполагаем, что распределение нашей переменной является нормальным / гауссовским.

6. Ярке - Тест Бера на нормальность

Тест Жарка-Бера проверяет, имеют ли выборочные данные асимметрию и эксцесс, соответствующие нормальному распределению.

ПРИМЕЧАНИЕ. Этот тест работает только для достаточно большого количества выборок данных (›2000).

  • Если p-значение ≤ 0,05, то мы отклоняем нулевую гипотезу, то есть предполагаем, что распределение нашей переменной не является нормальным / гауссовым.
  • Если p-значение> 0,05, то мы не можем отклонить нулевую гипотезу, т.е. мы предполагаем, что распределение нашей переменной является нормальным / гауссовским.

7. Колмогорова - Тест Смирнова на нормальность

Выполняет (один или два образца) критерий согласия Колмогорова-Смирнова. Одновыборочный тест выполняет проверку распределения F (x) наблюдаемой случайной величины в сравнении с заданным распределением G (x) (т. Е. Нормальным распределением).

  • Если p-значение ≤ 0,05, то мы отклоняем нулевую гипотезу, т.е. предполагаем, что распределение нашей переменной не является нормальным / гауссовым.
  • Если p-значение> 0,05, то мы не можем отклонить нулевую гипотезу, т.е. мы предполагаем, что распределение нашей переменной является нормальным / гауссовским.

Заключение

Мы создаем модели машинного обучения, чтобы имитировать процесс во вселенной / популяции, обучаясь на выборке, взятой из совокупности. Процесс может заключаться в обнаружении рака, мошеннических транзакций и т. Д. Мы предполагаем, что распределение населения является нормальным, и выборка представляет собой совокупность. Хорошая выборка, представляющая совокупность, хорошо работает в производстве. Итак, перед обучением модели рекомендуется проверить, является ли выборка хорошим представлением генеральной совокупности (т.е. нормальным распределением) с помощью тестов нормальности. Существует множество способов проверить нормальность переменной. Можно выбрать графики, которые упрощают понимание путем визуализации, или выбрать статистические тесты, которые дают значение p для проверки нормальности.

Ссылка



SciPy - Справочное руководство SciPy v1.5.2
SciPy (произносится как« Sigh Pie
) - это программное обеспечение с открытым исходным кодом для математики, естественных наук и инженерии. Учебники с работающими… docs.scipy.org »







Спасибо за чтение!

Любые отзывы и комментарии приветствуются!

Некоторые из моих других сообщений могут быть вам интересны,







« is и == в Python
Ускорьте сравнение строк medium.com»