P-значение

P-значение – это вероятность получения выборки как или более экстремальной (имеющей больше доказательств против H₀), чем наша собственная выборка, с учетом нулевой гипотезы. (H₀) верно.

Допустим, я провожу эксперимент, в котором я посылаю кого-то (взяв опекуна из Doom 2) украсть горох. Это испытание Бернулли, поскольку результаты эксперимента либо крадут горох, либо нет (результат типа «да/нет»). Это испытание становится биномиальным распределением, то есть распределением дискретных значений, если я повторю его 100 раз. Можно показать его функцию массы вероятности (PMF). Признано, что PMF каждого биномиального распределения напоминает нормальное распределение.

Если мы пошлем человека украсть горох, есть большая вероятность, что он украдет его примерно в 50% случаев, если мы пошлем его украсть 100 раз. Это означает, что каждый раз есть 50% шанс, что он украдет, а в некоторых экспериментах он может украсть 48 или 55% времени, поэтому вероятность того, что он украдет, скорее всего, будет между 40–60 из 100. раз. Однако по мере продвижения к 60 или 40 вероятность уменьшается. Например, если я скажу, что человек украдет 65 или 35 раз, вероятность будет ниже по сравнению с вероятностью украсть от 40 до 60 раз.

Теперь я хочу взять гипотетическое условие, поэтому давайте проверим гипотезу. Мы начинаем с установки нашей нулевой гипотезы как «человек не будет воровать» (Нет), что означает, что вероятность кражи и не кражи одинакова. Короче говоря, H0: P(Да) = P(Нет). Однако Прадуман (#CID), DAYA KUCH TO GADBAD HAI и считает, что человек скорее ворует.

Короче говоря, H1: P(Да) > P(Нет).

Наш эксперимент состоял в том, чтобы отправить человека воровать горох и наблюдать, ворует ли он (да) или нет (нет). Мы провели этот эксперимент 100 раз с одним и тем же человеком и обнаружили, что он воровал 55 раз и не воровал 45 раз.

Теперь, можем ли мы определить из этого единственного эксперимента, является ли человек вором или нет? Чтобы ответить на этот вопрос, мы проведем проверку гипотез с помощью p-значения. Мы рассматриваем 100 испытаний как один эксперимент. Мы проводим этот эксперимент 100 раз и определяем, может ли человек быть вором или нет, используя проверку гипотез с нулевой и альтернативной гипотезами: H_0:P (Да) = P(Нет) и H_1: P (Да) › P( Нет) соответственно.

Итак, теперь мы провели эксперимент 100 раз и выяснили, что человек совершал кражу 55 раз. Мы можем построить график и увидеть, что вероятность совершения 55 и более краж составляет 0,053 или 5,3%. P-значение, которое представляет вероятность получения выборки, которая является столь же экстремальной или даже более экстремальной, чем наша собственная выборка, и предоставляет доказательства против нулевой гипотезы.

В данном случае наша выборка составила 55 краж, а ее вероятность равна 0,053. Если у нас есть совокупная вероятность краж, превышающая это значение, то это и будет нашим P-значением. Мы видим на изображении заштрихованную область за пределами 55 на графике, а общая площадь под кривой равна 1. Итак, давайте подумаем об этом сами. Мы проверяем, будет ли человек воровать или нет, и предполагается, что оно должно быть равным, но у нас уже есть 55, что ведет к альтернативной гипотезе о том, что человек не невиновен. График, который мы построили, был основан на предположении нулевой гипотезы, и по мере продвижения к заштрихованной области значение выборки, такое как 70, 80 и выше, называется p-значением.

Мы можем видеть, что после проведения эксперимента 100 раз и получения 53 краж его вероятность составляет 0,066, а значение p равно 0,3806. Итак, что это значит? Это означает, что из этих 100 экспериментов есть вероятность, что в 30 из них человек украдет 53 раза. Это говорит нам, насколько сильны доказательства против нулевой гипотезы.

Давайте разберемся в этом на примере монеты вала.

Давайте представим, что мы подбрасываем честную монету, которая может выпасть либо орлом, либо решкой, и делаем это 100 раз. Это называется экспериментом, и мы можем представить результаты, используя так называемое биномиальное распределение. Это немного похоже на нормальное распределение, о котором вы, возможно, узнали раньше.

Теперь, если мы подбросим правильную монету, есть большая вероятность, что мы получим примерно 50 % орлов и 50 % решек, поэтому биномиальное распределение будет выглядеть как горб посередине. Но что, если мы подбросим монету 100 раз и выпадем орлом 55 раз? Это немного необычно, правда? На самом деле, это довольно далеко от того, что мы ожидали бы, если бы монета была действительно честной.

Итак, мы можем построить биномиальное распределение и посмотреть на площадь под кривой справа от 55. Эта площадь представляет вероятность получения результата, равного или более экстремального, чем наш собственный результат (55 решек), если монета действительно была честной. Мы называем эту вероятность p-значением.

or

Размер выборки составлял 60 человек, то есть мы провели эксперимент с подбрасыванием монеты 100 раз и получили 60 решек. Значение р составило 0,0284. Это говорит о том, что, когда мы проводим тот же эксперимент с подбрасыванием монеты 100 раз, мы можем ожидать увидеть 60 орлов примерно в 2 случаях из 100.

Теперь давайте увеличим количество орлов до 80. Полученное p-значение равно 0, что указывает на то, что выпадение 80 орлов из 100 бросков монеты крайне маловероятно. Это означает, что наша нулевая гипотеза о том, что человек невиновен, неверна, если мы получаем 80 орлов из 100 бросков. Наша альтернативная гипотеза заключалась в том, что человек не невиновен, а Прадуман (CID), ДАЙЯ КУЧ ТО ГАДБАД ХАЙ.

По сути, p-значение говорит нам, насколько сильны доказательства против идеи о том, что монета честная. Чем меньше p-значение, тем убедительнее доказательства и тем больше вероятность того, что мы отвергнем идею о честности монеты.

Проще говоря, значение p – это мера убедительности доказательств против нулевой гипотезы, представленных в наших выборочных данных.

Интерпретация p-значения

Со значением значимости

α = 0,05 или 0,01. Если значение p ≤ α, нулевая гипотеза отклоняется.

Без значения значимости

  1. Очень маленькие значения p (например, p ‹ 0,01) указывают на убедительные доказательства против нулевой гипотезы, предполагая, что наблюдаемый эффект или разница вряд ли возникли случайно.
    2. Небольшие значения p (например, 0,01 ≤ p ‹ 0,05) указывают на умеренные доказательства против нулевой гипотезы, предполагая, что наблюдаемый эффект или разница с меньшей вероятностью возникли случайно. 3. Большие значения p (например, 0,05 ≤ p ‹ 0,1) указывают на слабые доказательства против нулевой гипотезы, предполагая, что наблюдаемый эффект или различие могли возникнуть случайно, но все же некоторый уровень неопределенности.
    4. Очень большие значения p (например, p ≥ 0,1) указывают на слабые доказательства или отсутствие доказательств против нулевой гипотезы, предполагая, что наблюдаемый эффект или различие, вероятно, произошло случайно.

P-значение в контексте Z-теста

Нажмите здесь для примера

Т-тесты

Z-тест и t-тест похожи, но у них есть одно ключевое отличие. В z-тесте нам требуется стандартное отклонение совокупности, тогда как в t-тесте мы используем стандартное отклонение выборки. Еще одно отличие состоит в том, что t-критерий подходит для небольших выборок, тогда как z-критерий больше подходит для выборок большего размера. Кроме того, при расчете тестовой статистики в z-тесте мы предполагаем нормальное распределение, тогда как в t-тесте мы используем t-распределение.

T-критерий — это статистический критерий, используемый при проверке гипотез для сравнения средних значений двух выборок или сравнения среднего значения выборки с известным средним значением генеральной совокупности. Критерий Стьюдента основан на распределении Стьюдента, которое используется, когда стандартное отклонение генеральной совокупности неизвестно, а размер выборки невелик.

Стьюдентный критерий полезен для сравнения двух выборочных средних. Это также применимо при сравнении среднего значения выборки с известным средним значением совокупности, когда стандартное отклонение совокупности неизвестно или когда размер выборки мал.

Существует три основных типа t-тестов:

Одновыборочный t-критерий. Одновыборочный t-критерий используется для сравнения среднего значения одной выборки с известным средним значением генеральной совокупности. Нулевая гипотеза утверждает, что нет существенной разницы между средним значением выборки и средним значением генеральной совокупности, в то время как альтернативная гипотеза утверждает, что существует значительная разница.

В одновыборочном t-тесте мы работаем с одной выборкой, чтобы вычислить ее среднее значение. Затем, основываясь на этом среднем значении выборки, мы проводим проверку гипотезы, чтобы сделать выводы/гипотезу о среднем значении генеральной совокупности.

Независимый t-тест для двух выборок. Независимый t-критерий для двух выборок используется для сравнения средних значений двух независимых выборок. Нулевая гипотеза утверждает, что между средними значениями двух выборок нет существенной разницы, в то время как альтернативная гипотеза утверждает, что существует значительная разница.

В независимом t-тесте с двумя выборками мы берем две отдельные выборки и сравниваем их средние значения. Нулевая гипотеза утверждает, что между средними значениями двух выборок нет разницы, в то время как альтернативная гипотеза утверждает, что существует некоторая разница между средними значениями двух выборок.

Парный t-критерий (зависимый t-критерий для двух выборок). Парный t-критерий используется для сравнения средних значений двух зависимых или парных выборок, таких как предварительное и послетестовое тестирование. баллы для одной и той же группы испытуемых или измерения одних и тех же испытуемых в двух разных условиях. Нулевая гипотеза утверждает, что нет существенной разницы между средними значениями парных разностей, в то время как альтернативная гипотеза утверждает, что существует значительная разница.

В парном t-тесте, также известном как зависимый t-критерий с двумя выборками, мы сравниваем средние значения парных выборок, которые зависят друг от друга. Например, если мы проведем тест А перед обучением и тест Б после обучения на одних и тех же людях, данные для обоих тестов будут связаны или парны. В этом тесте нулевая гипотеза утверждает, что нет разницы между средними значениями парных выборок, в то время как альтернативная гипотеза утверждает, что между средними значениями парных выборок есть некоторая разница.

Стьюдентный критерий для одной выборки

Одновыборочный t-критерий проверяет, отличается ли среднее значение выборки от среднего значения генеральной совокупности.

Предположения для одновыборочного t-критерия

  1. Нормальность —совокупность, из которой взята выборка, имеет нормальное распределение/выборка имеет нормальное распределение.
  2. Независимость.Наблюдения в выборке должны быть независимыми, что означает, что значение одного наблюдения не должно влиять на значение другого наблюдения.
  3. Случайная выборка. Выборка должна представлять собой случайное и репрезентативное подмножество населения.
  4. Неизвестная стандартная популяция —Стандартная популяция неизвестна.

В предположениях t-теста нам необходимо учитывать предположение о нормальности, когда выборочные данные должны следовать нормальному распределению. Однако даже если выборка не является совершенно нормальной, t-критерий все же можно использовать для приблизительного вывода, особенно при больших размерах выборки. Кроме того, наблюдения в выборке должны быть независимыми друг от друга, а это означает, что значение одного наблюдения не должно зависеть от значения другого наблюдения. Данные также должны быть случайным образом отобраны из совокупности, и нет необходимости знать стандартное отклонение совокупности. Эти предположения обеспечивают достоверность и надежность результатов t-критерия.

"Пример"

Case-Study Single Sample t-test Python:

Независимый t-критерий с двумя выборками

Независимый t-критерий с двумя выборками, также известный как непарный t-критерий, представляет собой статистический метод, используемый для сравнения средних значений двух независимых групп, чтобы определить, есть ли между ними значительная разница.

Предположения для теста:

Независимость наблюдений. Две выборки должны быть независимыми, что означает отсутствие связи между наблюдениями в одной группе и наблюдениями в другой группе. Субъекты в две группы должны быть выбраны случайным образом и независимо.

Нормальность. Данные в каждой из двух групп должны иметь примерно нормальное распределение. Критерий Стьюдента считается устойчивым к легким нарушениям нормальности, особенно при больших размерах выборки (обычно n ≥ 30) и одинаковых размерах выборок в двух группах. Если данные сильно искажены или имеют существенные выбросы, рассмотрите возможность использования непараметрического теста, такого как U-критерий Манна-Уитни.

Равные дисперсии (гомоскедастичность): дисперсии двух совокупностей должны быть приблизительно равными. Это предположение можно проверить с помощью F-теста на равенство дисперсий. Если это предположение не выполняется, вы можете использовать t-критерий Уэлча, который не требует равных дисперсий.

Случайная выборка. Данные должны собираться методом случайной выборки из соответствующих групп населения. Это гарантирует, что выборка репрезентативна для генеральной совокупности, и снижает риск систематической ошибки при отборе.

Независимый t-критерий с двумя выборками сравнивает средние значения двух отдельных групп или выборок, чтобы определить, есть ли между ними значительная разница, помогая отличить реальные эффекты от случайных изменений. Например, рассмотрим компанию, в которой мы хотим сравнить среднюю заработную плату мужчин и женщин. Кроме того, нам необходимо обеспечить независимость, а это означает, что заработная плата мужчин и женщин не должна зависеть друг от друга. Нам также необходимо проверить нормальность и равные дисперсии, используя соответствующие методы. Кроме того, данные должны быть отобраны случайным образом, чтобы гарантировать, что они представляют разнообразную и непредвзятую подгруппу населения, а не ограничиваются сотрудниками одного отдела.

"Пример:"

Парный 2-выборочный t-критерий

Парный t-критерий для двух выборок, также известный как зависимый или t-критерий для парных выборок, представляет собой статистический тест, используемый для сравнения средних значений двух связанных или зависимых группы.

Общие сценарии, в которых используется парный двухвыборочный t-критерий, включают:

Исследования до и после: сравнение показателей группы до и после вмешательства или лечения.

Совпадающие или коррелированные группы: сравнение производительность двух групп, которые каким-то образом совпадают или коррелируют друг с другом, например, братья и сестры или пары людей со схожими характеристиками.

Для парных наблюдений рассмотрим примеры.

Пример 1. Празднование Холи

В этом примере мы наблюдаем цвет девушки до и после игры в Холи. Наблюдение «до игры в Холи» и наблюдение «после игры в Холи» связаны или парны, потому что оба они относятся к одному и тому же человеку, девушке. Сравнивая разницу в цвете до и после игры в Холи, мы можем оценить влияние празднования на ее внешний вид.

Пример 2: годовалые и прошлогодние

В этом сценарии мы наблюдаем за ростом годовалого ребенка и сравниваем его с его прошлогодними измерениями. Наблюдение «годовалого возраста» и наблюдение «прошлого года» являются парными, поскольку они относятся к одному и тому же человеку в разные моменты времени. Анализируя парные измерения, мы можем понять рост и развитие ребенка с течением времени.

В обоих примерах парный характер наблюдений позволяет нам исследовать изменения или эффекты, связанные с одними и теми же субъектами (девочкой и ребенком) в разных условиях (до и после игры в Холи и рост с течением времени соответственно). Парный двухвыборочный t-критерий можно использовать, чтобы определить, есть ли существенные различия или изменения в этих конкретных сценариях.

Предположения

Парные наблюдения.Два набора наблюдений должны быть каким-то образом связаны или объединены в пары, например измерения до и после одних и тех же субъектов или наблюдения из совпадающих или коррелированных групп.

Нормальность: различия между парными наблюдениями должны быть примерно нормально распределены. Это предположение можно проверить с помощью графических методов (например, гистограмм, графиков Q-Q) или статистических тестов на нормальность (например, теста Шапиро-Уилка). Обратите внимание, что t-критерий обычно устойчив к умеренным нарушениям этого предположения, когда размер выборки велик.

Независимость пар. Каждая пара наблюдений должна быть независимой от других пар. Другими словами, исход одной пары не должен влиять на исход другой пары. Это предположение, как правило, удовлетворяется соответствующим дизайном исследования и случайной выборкой.

Предположим, у нас есть компания, в которой работают сотрудники Е1, Е2, Е3, Е4 и Е5, и их зарплаты до программы обучения равны а1, а2, а3, а4 и а5 соответственно. После программы обучения их зарплаты становятся b1, b2, b3, b4 и b5. Парные наблюдения здесь представляют собой разницу в заработной плате до и после обучения: d1, d2, d3, d4 и d5.

Чтобы парные наблюдения были достоверными: парный характер данных позволяет нам напрямую исследовать влияние программы обучения на заработную плату отдельных сотрудников. Сравнивая разницу в заработной плате (до и после) для каждого сотрудника, мы можем выполнить парный двухвыборочный t-критерий, чтобы определить, оказала ли программа обучения значительное влияние на заработную плату сотрудников.

Различия в заработной плате (d1, d2, d3, d4 и d5) должны соответствовать примерно нормальному распределению. Это гарантирует, что статистические допущения для парного двухвыборочного t-критерия выполняются.

Сотрудники E1, E2, E3, E4 и E5 не должны быть связаны или независимы друг от друга. Их оклады не должны зависеть друг от друга, гарантируя, что парные наблюдения действительно независимы.

Убедившись, что различия в заработной плате примерно нормально распределены, и убедившись, что зарплаты сотрудников не зависят друг от друга, мы можем с уверенностью использовать парный двухвыборочный t-критерий, чтобы оценить, оказала ли программа обучения значительное влияние на зарплаты сотрудников. . Этот тест помогает нам определить, есть ли существенная разница в зарплатах до и после программы обучения.

"Пример:"