Проблема с нескорректированным множественным и последовательным статистическим тестированием

В большинстве случаев Статистического анализа исследователи часто хотят получить достаточную мощность, чтобы сбалансировать затраты на эксперимент, например, на медицинский эксперимент. Наиболее распространенный статистический метод заключается в использовании последовательной выборки данных до тех пор, пока не будет выполнено желаемое условие. Однако использование этого метода приводит к завышенной частоте ошибок первого и второго рода. В этом блоге обсуждается Статистический метод, который касается процедуры последовательной выборки.

Когда выполняется большое количество статистических тестов, возникает вероятность увеличения количества ложноположительных результатов или возникает проблема многократного тестирования для рассматриваемой выборки. Обычно коррекция Бонферрони проводится для решения многочисленных проблем тестирования без внесения каких-либо корректировок.

Но эта поправка Бонферрони имеет серьезный недостаток. То есть, если мы проводим несколько независимых тестов, то вероятность или шанс получить хотя бы один ложноположительный результат рассчитывается как 1-(1–0,05)^n. Допустим, если n=10, то вероятность будет 40,14%, что очень много. В таких ситуациях использование поправки Бонферрони нецелесообразно.

Задача последовательного тестирования — это альтернатива решению нескольких задач тестирования. Последовательное тестирование означает, что исследователи собирают данные до тех пор, пока мы не достигнем фиксированного порога. Но это требует больше усилий, времени и дорого на практике. Кроме того, можно проверить уменьшение p-значения при последовательном тестировании образцов.

В нескорректированной процедуре множественного тестирования можно ввести правило остановки, скажем, остановить процесс, как только частота ложных срабатываний достигнет 25%. В таком случае шанс получить значимый результат будет один к четырём. Хотя эта процедура кажется удобной, она повлияет на оценочные значения. Точно так же проблема последовательного тестирования имеет серьезный недостаток. То есть, когда мы делаем выборку последовательно, исследователи часто сталкиваются с эффектом переоценки. Таким образом, величина эффекта также является следствием характера смещения.

Посмотрите на рисунок ниже, этот рисунок объясняет серьезность проблемы последовательного и множественного тестирования. На следующем рисунке поясняется Значение размера выборки для смоделированных 10 000 последовательных стратегий. Из графика видно, что последовательное тестирование (синяя кривая) менее серьезно, чем некоррелированное множественное тестирование (красная кривая). Как объяснялось ранее, если мы наложим какое-либо правило остановки, оно также превысит лимит и даст ложную скорость обнаружения.

Однако этот вид тестирования влияет на оценочные значения помимо значений вероятности. Поскольку при последовательной выборке расстояние между средними значениями обеих групп будет увеличиваться или уменьшаться, и если кто-то захочет продолжить процесс выборки до тех пор, пока обе группы не дадут значимых результатов, это может привести к завышению оценки. Следовательно, последовательное тестирование необъективно по значимости, а также по величине эффекта.

До сих пор я упоминал о проблеме нескорректированного последовательного тестирования. Концепция последовательного тестирования на самом деле является отличной идеей, только если мы вносим необходимые исправления, чтобы увеличить размер выборки. Потому что, если мы выбираем данные последовательно меньшими битами и достигаем фиксированного предела, это означает, что мы фактически увеличиваем размер выборки для достижения нашей цели. Для обработки таких ситуаций в литературе доступны два класса подходов. Это: групповой последовательный анализ и полный Последовательный анализ.

В групповом последовательном анализе или промежуточном анализе исследователь должен сделать априорные спецификации данных. Например, следует принять предварительное решение о том, что выборки должны составлять 50 проб на первом уровне, 100 на втором уровне и т. д., и остановиться, когда будет получен желаемый результат. Основное преимущество этой методики в том, что можно остановить Сбор данных при достижении желаемого уровня.

В то время как в полной последовательной технике предварительные приготовления не требуются. В начале 1940-х Уолдс использовал этот метод для вычисления кумулятивного логарифмического отношения правдоподобия для каждого собранного наблюдения и останавливал процесс при достижении заранее определенного порога. Это что-то вроде случая в Промежуточном анализе. Однако полная последовательная техника непрактична. Предположим, что исследователь хочет проанализировать выборку из 20 участников групповой терапии, тогда это может быть неуместно, но групповой последовательный анализ послужит цели.

В заключение я сделаю заметку о различных подходах к решению проблемы множественного тестирования.

Метод

Описание

Необходимый размер выборки

Непоследовательный анализ

он собирает один образец и выполняет анализ на более позднем этапе. Это простой метод, но его недостаток заключается в том, что можно собрать больше данных, чем необходимо.

Большой

Групповой последовательный анализ

его также называют промежуточным анализом, который использует априорные решения для анализа и останавливается, когда достигается значимость.

Умеренный

Полный последовательный анализ

в отличие от приведенного выше случая, он не требует априорных указаний. Он выполняет статистический анализ на основе выборки после записи наблюдения и останавливает сбор данных, когда они выходят за указанные пределы.

Низкий

На этом примечании я заканчиваю этот блог о проблеме нескорректированного множественного тестирования и последовательных процедур тестирования. Чтобы узнать больше об этом, пожалуйста, обратитесь к литературе в ссылках ниже.

использованная литература

1. Джон, Л. К., Лёвенштейн, Г. и Прелек, Д. Измерение распространенности сомнительных исследовательских практик с поощрением за правду. Психол. науч. 23, 524–532 (2012).

2. Фидлер, К. и Шварц, Н. Новый взгляд на сомнительные исследовательские практики. соц. Психол. Перс. науч. 7, 45–52 (2015).

3. Бенджамин и др. Переопределить статистическую значимость. Нац. Гум. Поведение 2, 6–10 (2018).

4. Лакенс Д. и соавт. Обоснуй свою альфу. Нац. Гум. Поведение 2, 168–171 (2018).

5. Альтхаус, А. С поправкой на множественные сравнения? Это не так просто. Аня. Торак. Surg. 101(5), 1644–1645 (2016).

6. Бендер Р. и Ланге С. Адаптация к множественному тестированию — когда и как? Дж. Клин. Эпидемиол. 54, 343–349 (2001).

7. Фидлер К., Кутцнер Ф. и Крюгер Дж. И. Долгий путь от контроля α-ошибок до собственно достоверности: проблемы с недальновидными ложноположительными дебатами. Перс. Психол. науч. 7, 661–669 (2012).

8. Уолд А. Последовательные проверки статистических гипотез. Аня. Мат. Стат. 16, 117–186 (1945).

9. Симмонс, Дж. П., Нельсон, Л. Д. и Симонсон, У. Ложноположительная психология: нераскрытая гибкость в сборе и анализе данных позволяет представить что-либо как значимое. Психол. науч. 22, 1359–1366 (2011).

10. Альтман Д.Г. Практическая статистика для медицинских исследований. (Чепмен и Холл, Бока-Ратон, 1991).

Проблема с нескорректированным множественным и последовательным статистическим тестированием

Вопросы по теме