Логика проверки гипотез и типы ошибок

Вы могли встретить бесчисленное количество утверждений и утверждений, связанных с цифрами, особенно в маркетинговых кампаниях и рекламе. «9 из 10 врачей рекомендуют зубную пасту Colgate» или «Деттол убивает 99,9% бактерий» - вот классические примеры числовых утверждений. Статистическая достоверность таких утверждений относительно какого-либо параметра может быть проверена, если вы соберете некоторые образцы данных и выполните над ними определенные вычисления. Это основа выводимой статистики с использованием проверки гипотез.

Проверка гипотезы

Проверка гипотез - это механизм статистического тестирования для оценки свидетельств в форме данных для проверки гипотезы или предположения относительно параметра. Вы начинаете с двух гипотез - нулевой и альтернативной, принимая две противоположные стороны для объяснения параметра.

Например, если производитель вашего автомобиля утверждает, что автомобиль дает пробег 25 км на литр, сначала соберите пробег нескольких автомобилей одной и той же модели. Это сформирует ваш образец данных. Затем установите нулевую и альтернативную гипотезы. Проведите тестовые расчеты и по результатам оцените обоснованность претензии.

Постановка проверки гипотез

Нулевая гипотеза - положение по умолчанию или состояние как есть, когда утверждение о параметре принимается как истина.

Альтернативная гипотеза - противоположность нулевой гипотезе, где утверждение о нулевом значении противоречит и где наблюдаемые данные рассматриваются как истина.

Проверка гипотез выполняется для того, чтобы либо отклонить, либо не отклонить нулевую гипотезу на основе расчетов, выполненных на наблюдаемых (собранных) данных. Если тест отклоняет нуль, то автоматически принимается альтернативная позиция. С другой стороны, если тест не может отклонить нулевое значение, мы продолжаем использовать положение по умолчанию как статус-кво, пока не соберем дальнейшие доказательства.

Пример проблемы

Рассмотрим следующую постановку задачи.

Производитель ламп накаливания заявляет, что средний срок службы лампы составляет 2000 часов и более. В выборке из 30 лампочек было обнаружено, что в среднем они служат всего 1900 часов. Стандартное отклонение образца составляет 150 часов. Можем ли мы отклонить претензию производителя при уровне значимости 0,05?

Теперь давайте сформулируем нулевую и альтернативную гипотезы для этого сценария.

Ho: средний срок службы лампы ≥ 2000 часов (заявка).

Ха: средний срок службы лампы ‹2000 часов (согласно образцу данных).

Следующим шагом является выполнение статистического теста, чтобы оценить, должны ли мы отклонять или не отклонять нулевое состояние или состояние «как есть» на основе данных. С помощью тестовых расчетов мы оцениваем, достаточно ли убедительны доказательства из данных, чтобы опровергнуть нулевое состояние и принять альтернативную позицию. Если нет веских доказательств, мы продолжаем принимать претензию.

Т-тест

T-оценка - это статистика для t-критериев, которая измеряет разницу между статистикой наблюдаемой выборки и предполагаемым параметром совокупности в единицах стандартной ошибки. T-критерий сравнивает наблюдаемое t-значение с критическим значением на t-распределении с (n-1) степенями свободы, чтобы определить, является ли разница между оцененными и предполагаемыми значениями параметра совокупности статистически значимой.

В этом случае мы проведем t-тест и вычислим соответствующее p-значение, чтобы принять решение. Статистика t-критерия рассчитывается как (x-μ) / (s / √n), где x - выборочное среднее, μ - это гипотетическое или заявленное среднее значение, s - стандартное отклонение выборки, а n - размер выборки.

В приведенном выше примере статистическое значение t-критерия будет -3,65. Чтобы принять решение на уровне значимости 0,05 (соответствует уровню достоверности 95%), пороговое значение, основанное на t-распределении, составляет -1,699. Это можно легко получить из таблицы t-распределения или с помощью быстрой формулы в Excel как T.INV (значение значимости [обычно 0,05 или 0,1], размер выборки - 1).

Принятие решения

Последний шаг - сравнить тестовую статистику со значением отсечения. Если абс (тестовая статистика) ›абс (пороговое значение), то мы отвергаем нулевую гипотезу, в противном случае - нет. Цель порогового значения - определить, насколько большое отклонение от заявленного значения (нулевая гипотеза) будет достаточным, чтобы разумно отклонить нулевое состояние. Типичные отраслевые стандарты имеют уровни значимости 95% и 90%, что указывает на вероятность ошибки 5% и 10% соответственно. В распределении с предполагаемым значением в качестве средней точки, если наблюдаемое значение из данных достаточно далеко от заявленного значения, это будет означать, что наблюдение таких данных маловероятно, если нулевое состояние должно было быть истинным. Это является основанием для отказа от null. Если наблюдаемое значение не слишком далеко от заявленного значения, мы не отклоняем претензию.

В нашем примере абсолютное значение тестовой статистики составляет 3,65, что больше порогового значения 1,699. Следовательно, мы отклоняем заявление производителя о том, что средний срок службы лампы составляет 2000 часов и более.

Вот краткое руководство по выбору типа теста на основе имеющейся в вашем распоряжении информации.

Ошибки при проверке гипотез

Есть два типа ошибок, связанных с проверкой гипотез - ошибки типа 1 и типа 2.

Ошибка типа 1 возникает, если мы неправильно отвергаем нулевую гипотезу, хотя на самом деле она не должна была отвергаться. В предыдущем примере, если средний срок службы лампы действительно составлял 2000 часов или более, как заявлено производителем, но собранный нами образец содержал больше дефектных деталей, чем обычно, то мы совершили бы ошибку 1-го типа. α - это вероятность совершения ошибки 1-го типа, которая является уровнем значимости, который мы выбираем для теста. Если мы выберем уровень значимости 0,05, это означает, что вероятность ошибки 1-го типа в результате теста составляет 5%.

Ошибка типа 2 возникает, когда мы не можем отвергнуть нулевую гипотезу, хотя на самом деле мы должны были это сделать. β - это вероятность совершения ошибки 2-го типа. Это также называется мощностью проверки гипотезы, поскольку она определяет способность теста оценивать силу доказательств в данных для отклонения нулевого состояния.

Ценность и важность ошибок определяются характером, сложностью и контекстом решаемой проблемы. В случае медицинских тестов более важно не совершать ошибку 2-го типа, когда у реального пациента не диагностировано заболевание. Это нормально, даже если есть ложные срабатывания, но ложноотрицательные срабатывания представляют серьезную угрозу в этом сценарии. С другой стороны, в вопросах вынесения судебного решения необходимо добиться ошибки низкого типа 1, когда невиновный человек признается виновным. Хотя не менее важно иметь низкий уровень ошибки 2-го типа (виновный считается невиновным), ошибка 1-го типа приобретает большее значение из-за судебной политики «невиновен, пока виновность не будет доказана».

Таким образом, в зависимости от контекста цель проверки гипотез и важность связанных с ней ошибок различаются. Проверка гипотез является неотъемлемой частью выводимой статистики, которая составляет основу многих передовых алгоритмов машинного обучения.