Как прогнозирование сильных или слабых значимых p-значений на основе машинного обучения может помочь нам улучшить текущие показатели или определить подполя, которые могут потребовать разработки более высоких стандартов для публикации. Часть 1: введение и исследовательский анализ

Введение

Воспроизводимость результатов исследования - одна из самых больших проблем научных исследований. Опрос, проведенный Nature в 2016 году, показывает, что 90% исследователей обеспокоены воспроизводимостью результатов в науке (Baker, 2016). Согласно этому опросу, более 70% ученых не смогли воспроизвести результаты предыдущих экспериментов. Кроме того, более чем половине не удалось воспроизвести даже собственные эксперименты.

Методы пост-рецензирования (например, подсчет цитирований, отзыв, репликация) помогают исправить невоспроизводимые результаты. Но этот процесс может длиться годами. Кроме того, опровержение вывода привлекает меньшее внимание общественности, чем исходная публикация. Между тем, огромное количество государственных средств тратится на ошибочные гипотезы (Macleod et al., 2014). Следовательно, появились резонансные опровержения, ставящие под сомнение научную репутацию. Последующая обеспокоенность общественности по поводу честности исследований способствует продвижению ненаучных знаний.

Чтобы ответить на эти вопросы, новое направление, называемое метаисследованием, направлено на изучение того, как проводятся научные исследования (Иоаннидис и др., 2015). Кроме того, были разработаны манифесты и проекты для продвижения передовой исследовательской практики и улучшения воспроизводимости (Munafò et al., 2017, Open Science Collaboration 2015, Benjamin et al. 2018).

К сожалению, стимулы «публикуйся или погибай» ставят под вопрос успех этих инициатив (Либовиц, 2015). Новые открытия увеличивают шансы публикации в журнале с высоким импакт-фактором. Итак, карьерные стимулы подталкивают исследователей к получению наибольшего количества новых результатов. Эта максимизация может быть достигнута с помощью таких методов, как извлечение данных или неправильное использование методов проверки гипотез. Эти методы помогают генерировать значимые p-значения, связанные с невоспроизводимыми результатами.

Этому поколению не нужно быть сознательным. Например, во время исследования исследователи могут протестировать несколько утвержденных подходов для улучшения качества данных или проверки гипотез. Тем не менее, эта оценка различных подходов может случайным образом генерировать значимые p-значения. Корректировки P-значения помогают минимизировать случайное генерирование значимых p-значений. Но эти поправки применяются к окончательному набору p-значений. Исправления не могут контролировать эффект всех тестов, оцениваемых во время рабочего процесса исследования.

Чтобы уменьшить количество невоспроизводимых результатов, необходимо создать палки, которые дополняют текущую морковку. Перспективные подходы уже разрабатываются и применяются. Например, анализ противоречивой статистики помог выявить повторное мошенничество от ведущей исследовательской группы Корнеллского университета в области пищевых продуктов. Однако эти подходы могут помочь нам выявить отдельные случаи, но не общие тенденции, которые нужно исправить в той или иной области. Например, в некоторых областях исследований данные имеют более высокую внутреннюю изменчивость. Интуитивно понятно, что в этих полях следует применять более высокие стандарты протокола или снижать пороговые значения p-значения для достижения той же воспроизводимости, что и в других полях.

Изучение потенциальной воспроизводимости результатов путем анализа силы их p-значений

Это сообщение в блоге знакомит с исследованием нового подхода в статье, которая скоро будет опубликована. Этот подход основан на анализе силы значимых p-значений для повышения воспроизводимости исследования. Предыдущие исследования показали, что одним из лучших предикторов воспроизводимости результатов является сила p-значения (Open Science Collaboration 2015): чем слабее значимое p-значение, тем вероятнее значимый результат невоспроизводимый:

В предыдущем сообщении блога я объяснил, как можно собрать набор данных из миллионов p-значений. Теперь представьте, что мы можем собирать информацию из статей, которые являются источником p-значений. Затем мы должны быть в состоянии идентифицировать факторы, связанные с более высоким поколением слабых значимых p-значений (и, следовательно, с более низкой воспроизводимостью).

Чтобы лучше понять эту концепцию, полезно сначала взглянуть на распределение этого набора миллионов p-значений. (Распределение имеет такую ​​форму:

На графиках плотности мы можем наблюдать несколько пиков, которые показывают типичные округления значений p (например, 0,0001, 0,001, 0,01, 0,05). Самый высокий пик соответствует пороговому значению p ‹0,05. Интуитивно, стимулы мотивируют выбор округления p-значения, которое показывает большую силу p-значения (т. Е. Если ваше p-значение равно 0,008, вы округляете до p ‹0,01, а не до p‹ 0,05). Таким образом, большинство p-значений p ‹0,05 будут находиться в диапазоне от 0,01 до 0,05. Это предположение помогает классифицировать p-значения по их силе и, как результат, анализ факторов способствует более высокой доле слабых (т.е. между 0,01 и 0,05) значимых p-значений.

Затем, чтобы еще больше усилить эту эвристику lower:
доля слабых значимых p-значений
‹-› доля невоспроизводимых результатов
, мы проанализируем связь между количеством цитирований статей и долей слабо значимых p-значений.

Количество цитирований статьи - это показатель, который пытается параметризовать качество ее исследования. Интуитивно понятно, целью максимального повышения качества исследования является максимальное количество воспроизводимых значимых результатов. Следовательно, количество цитирований должно коррелировать с силой p-значений. Например, здесь для нескольких полей -omics показаны графики плотности распределения p-значений при группировке по квартилям количества цитирований:

Ось x показывает значение p. Самый высокий пик соответствует порогу отсечки 0,05. Связь между более высокой долей p-значений 0,01–0,05 и более низким квартилем очевидна. В полях all -omics самый низкий квартиль (красная кривая) - это тот, у которого самая высокая доля 0,01– 0,05 p-значения. Кроме того, во всех полях наивысший квартиль (фиолетовая кривая) - это квартиль с наибольшей долей более сильных p-значений (например, ‹0,01 или‹ 0,001).

Теперь, когда у нас есть дополнительная интуиция о том, как сила p-значений соответствует предыдущим эвристикам, мы можем начать анализировать, как некоторые факторы могут влиять на долю слабых значимых p-значений. Например, это график плотности распределения p-значений в зависимости от поля -omics:

Доля p ‹0,05 p-значений находится в таком порядке возрастания:

Геномика ‹Транскриптомика‹ Метаболомика ‹Протеомика

Люди, обладающие биологическими знаниями, должны были выяснить наиболее вероятную причину этого приказа. Если нет, я готов поспорить, что это на этом рисунке:

Как правило, чем дальше от исходного материала (ДНК), тем больше вариабельности добавляет фенотип к данным и тем более вероятно, что эта вариабельность дает невоспроизводимые достоверные результаты. Кроме того, также возможно, что появление этой области и количество исследователей в этой области играет роль. Чем более устоявшейся и с большим количеством практиков является область, тем более развиты стандарты в ней. Новые области, такие как метаболомика, все еще разрабатывают стандарты. Интуитивно понятно, что случайное генерирование p-значений неоптимальными протоколами в этом поле должно быть выше.

Корреляция с менее установленными стандартами и более высокой долей p-значений p ‹0,05 также может объяснить следующий рисунок, на котором показано влияние видов / царства, проанализированных в исследованиях -комикс:

Человек - наиболее изученный вид. Следовательно, он имеет наиболее развитые стандарты и имеет смысл показывать самую низкую долю слабых значимых p-значений. Другие животные и бактерии также хорошо изучены. Следовательно, они также показывают разумную генерацию слабых значимых p-значений. Напротив, исследования растений (пурпурный след) показывают чрезмерное генерирование значений p p ‹0,05. Я думаю, что этот результат может быть сильно объяснен отсутствием моделей на основе растений для изучения людей. Напротив, в случае животных и бактерий большинство исследований проводится на человеческих моделях (например, на крысах или клеточных линиях) с глубоко установленными стандартами протокола.

Обсуждение и введение следующих шагов

Я показал, что доля слабых (т.е. 0,01–0,05) значимых p-значений может варьироваться в зависимости от фактора (например, области исследования, анализируемого вида / царства). Каковы последствия этого понимания?

Во-первых, должны ли мы иметь одинаковое пороговое значение p для всех исследований, когда некоторые области связаны с более высокой вероятностью получения невоспроизводимых данных? Не следует ли нам применять более низкое пороговое значение p для этих исследований пока такие подходы, как реализация более строгих протоколов, не устранят эту ассоциацию?

На этом пути реализация нашего анализа, по-видимому, дает наиболее многообещающие результаты. У нас может быть новый показатель, который поможет нам проанализировать воспроизводимость в области исследования или подобласти. Этот показатель поможет нам сосредоточить наши усилия на улучшении воспроизводимости в тех подполях, где улучшение наиболее необходимо. Наконец-то у нас был бы кнут, который мотивировал бы улучшение воспроизводимости и дополнял бы нынешние пряники.

Во-вторых, если мы определим факторы, которые показывают связь с силой p-значения, эти факторы могут дополнительно улучшить информацию о качестве исследования, полученную при подсчете цитирований. Например, мы можем генерировать новые метрики, сочетающие в себе несколько функций. Чтобы проверить качество этих новых показателей, мы могли бы попытаться улучшить прогноз слабых значимых p-значений.

Во второй части я покажу как несколько факторов (проанализированный вид / царство, год публикации статьи, страна аффилированности автора, изученное поле -omics) могут улучшить прогноз значимого p-значения, как сильный или слабый. Этот прогноз основан на подходе классификации на основе машинного обучения (ML). Я также буду использовать объяснимые методы машинного обучения (например, графики ALE, удаление функций, важность функций), чтобы лучше понять, как каждый фактор влияет на прогноз. Наконец, вы, вероятно, определили некоторые из текущих ограничений подхода (например, потенциальные искажающие факторы, различия в размерах выборки, корректировки p-значений или округления p-значений). Эти ограничения будут обсуждаться вместе с некоторыми предложениями по переводу исследовательского анализа в более осуществимый.

Ссылки

Бейкер, Моня. 2016. 1500 ученых поднимают крышку над воспроизводимостью. Природа 533 (7604): 452–54. Https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970

Бенджамин, Дэниел Дж., Джеймс О. Бергер, Магнус Йоханнессон, Брайан А. Носек, Э. Дж. Вагенмейкерс, Ричард Берк, Кеннет А. Боллен и др. 2018. Новое определение статистической значимости. Природа человеческого поведения 2 (1): 6–10. Https://www.nature.com/articles/s41562-017-0189-z

Иоаннидис, Джон П. А., Даниэле Фанелли, Дебби Дрейк Данн и Стивен Н. Гудман. 2015. Мета-исследования: оценка и совершенствование методов и практик исследований. PLoS Biology 13 (10): e1002264. Https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1002264

Лик, Джефф. tidypvals: Это пакет с опубликованными p-значениями из медицинской литературы в аккуратной форме. Пакет R версии 0.1.0. Https://github.com/jtleek/tidypvals

Либовиц, Джей. 2015. Руководство по издательскому делу для академиков: изнутри феномена публикации или исчезновения. CRC Press. Https://www.crcpress.com/A-Guide-to-Publishing-for-Academics-Inside-the-Publish-or-Perish-Phenomenon/Liebowitz/p/book/9781482256260

Маклауд, Малькольм Р., Сьюзан Мичи, Ян Робертс, Ульрих Дирнагл, Иэн Чалмерс, Джон П. А. Иоаннидис, Рустам Аль-Шахи Салман, Ан-Вен Чан и Пол Гласзиу. 2014. Биомедицинские исследования: повышение ценности, сокращение отходов. Ланцет 383 (9912): 101–4. Https://www.thelancet.com/journals/lancet/article/PIIS0140-6736(13)62329-6/fulltext

Мунафо, Маркус Р., Брайан А. Носек, Дороти В. М. Бишоп, Кэтрин С. Баттон, Кристофер Д. Чемберс, Натали Перси дю Серт, Ури Симонсон, Эрик-Ян Вагенмейкерс, Дженнифер Дж. Уэр и Джон П. А. Иоаннидис. 2017. Манифест воспроизводимой науки. Природа человеческого поведения 1 (1). Издательская группа Природа: s41562–016–0021. Https://www.nature.com/articles/s41562-016-0021

Открытое научное сотрудничество. 2015. ПСИХОЛОГИЯ. Оценка воспроизводимости психологической науки . Наука 349 (6251): aac4716. Http://science.sciencemag.org/content/349/6251/aac4716