Перед лицом глобального кризиса исследования необходимо ускорить.

Поскольку в начале этого года ученые стремились узнать больше о COVID-19, быстрый доступ к исследованиям и клиническим данным стал жизненно важным для исследователей, чтобы общаться и учиться друг у друга, а открытая наука стала иметь решающее значение в борьбе с пандемией.

Открытая наука — это движение, которое рассматривает каждый этап исследовательского процесса как возможность поделиться, улучшить, сотрудничать и ускорить научный цикл. Открытая наука в более широком смысле относится к ряду методов, направленных на то, чтобы сделать науку более равноправной, воспроизводимой, проверяемой и эффективной. Исследователи могут повторно использовать ресурсы и повторять эксперименты, обмениваясь программным кодом, методами и данными. Они также могут предлагать свежие идеи и исследования. Обмен препринтами на таких сайтах, как bioRxiv и medRxiv, может ускорить время обнаружения, что уже происходит в борьбе с COVID-19. Раннее распространение препринтов COVID-19 развивалось способами, которые не наблюдались во время предыдущих вспышек заболеваний, таких как Зика и Эбола.

В марте Управление научной и технологической политики Белого дома (OSTP) обратилось с призывом к сообществу AI/ML, предложив им применить передовые подходы к обработке естественного языка (NLP) к растущему объему исследований COVID-19, поскольку а также более ранние исследования семейства коронавирусов в целом (включая вспышки SARS и MERS). Мета-команда Инициативы Чана Цукерберга сотрудничала с Центром безопасности и новых технологий Джорджтаунского университета, командой ученых-семантиков Института Аллена по искусственному интеллекту, Kaggle от Google и Microsoft Research, чтобы помочь нам ускорить нашу коллективную способность анализировать и лучше понимать огромное и растущее количество информации. исследования и клинические отчеты, связанные с коронавирусами. Результатом этого партнерства стал набор данных открытых исследований COVID-19 (CORD-19).

Набор данных открытых исследований COVID-19

CORD-19 (Открытый исследовательский набор данных COVID-19) был создан, чтобы устранить барьеры для анализа большого массива статей о COVID-19, предоставив сообществу AI/ML возможность легко анализировать литературу о COVID-19 и потенциально практические идеи для исследователей и клиницистов. Наша цель в проекте CORD-19 заключалась в том, чтобы предоставить исследователям в области ИИ/МО и биомедицины наиболее полную коллекцию статей и препринтов о COVID-19, SARS и MERS, доступных в машиночитаемом виде. Национальная медицинская библиотека Национальных институтов здравоохранения сотрудничала с издателями, чтобы обеспечить доступ к как можно большему количеству соответствующих научных статей.

9 марта эта группа участников провела нашу первую встречу для изучения этого предложения, а 16 марта мы смогли выпустить первоначальную версию набора данных. В течение мая данные еженедельно обновлялись новыми публикациями; с тех пор они обновляются ежедневно. В первоначальный выпуск набора данных было включено почти 29 000 записей, 44 процента (или 13 000 записей) из которых содержали полный текст статьи. Коллекция расширилась примерно до 242 000 единиц, из которых 102 000 (42%) включают весь текст.

Это ключ к миссии Meta, которая заключается в том, чтобы помочь исследователям в области биомедицины оставаться в курсе самых последних исследований. Meta собирает, извлекает и индексирует материалы из различных источников, таких как академические издательства, Национальная медицинская библиотека США и репозитории препринтов, и предоставляет их пользователям в режиме реального времени.

Что касается усилий по реагированию на COVID-19 и приложений машинного обучения в целом, CORD-19 имеет как краткосрочные, так и долгосрочные перспективы. Поскольку число случаев заболевания в мире приближается к 28 миллионам и продолжает расти, остро необходимы научные прорывы. Первоначально данные были обнародованы через Amazon Web Services и платформу Google Kaggle. Мы призвали специалистов по искусственному интеллекту со всего мира использовать функцию задач Kaggle для применения методологий интеллектуального анализа данных и текста к высокоприоритетным темам исследований и делиться своим кодом и данными с сообществом.

CORD-19 позволяет быстро анализировать самую последнюю литературу по коронавирусу, помогая выявлять новые закономерности и идеи по мере роста наших знаний о болезни. Чтобы прочитать и извлечь информацию, содержащуюся в потоке исследовательских работ, выпущенных до сих пор в 2020 году, одному исследователю потребуются годы. В отличие от обзоров литературы, проводимых людьми, CORD-19 ежедневно обновляется, чтобы включать в себя новые исследования и подпитывать технологии анализа текста сообщества ИИ.

CORD-19 позволяет быстро анализировать самую последнюю литературу по коронавирусу, помогая выявлять новые закономерности и идеи по мере роста наших знаний о болезни.

Эти совместные усилия привели к созданию бесплатного и открытого набора данных из более чем 242 000 научных статей о заболеваниях семейства коронавирусов, с 2,6 миллионами просмотров, 135 000 загрузок и более 1600 общих кодов, добавленных в сообщество Kaggle с момента запуска CORD-19. Результаты CORD-19 упрощают работу по добыче данных и дают оптимистичные направления исследований для биомедицинского исследовательского сообщества, поскольку они ищут методы лечения и лечения, несмотря на тот факт, что набор данных представляет собой просто совокупность уже опубликованных данных. Однако из-за лицензионных ограничений только около половины публикаций в сборнике доступны в полнотекстовом формате, что не позволяет исследователям получить полное представление о COVID-19 и его последствиях. Успех этого исследования зависел от наличия научных материалов для анализа данных и текстов, и эта парадигма может иметь долгосрочные последствия. Однако этот подход будет ограниченным до тех пор, пока весь исследовательский контент не станет полностью открытым.

CORD-19 демонстрирует потенциал сотрудничества между правительством, промышленностью и академическими кругами. Его запуск шесть месяцев назад предложил быстрое решение проблемы нехватки открытых, актуальных и машиночитаемых данных для литературы о коронавирусе. Благодаря глобальному кризису он удался благодаря просьбе OSTP и совместным усилиям всех участников быстро реализовать этот ресурс. Как показывает CORD-19, исследовательское сообщество готово мобилизоваться для решения важных и сложных научных вопросов. Теперь все мы обязаны указать направление и раскрыть всю мощь открытых данных для машинного обучения, чтобы решить следующий набор проблем.