Будущее токенизированного RWD

Datavant Match, база данных COVID-19 и куда мы идем сейчас.

Запущенная в 2020 году База данных исследований COVID-19 (неофициально RDB) начиналась как партнерство более десятка некоммерческих и коммерческих организаций, занимающихся данными о здоровье, с желанием объединить ресурсы для борьбы с пандемией COVID-19. . Используя деидентификацию и токенизацию данных Datavant, сотрудничающие организации токенизировали свои когортные данные, включая электронные медицинские карты (EHR), заявления, социальные детерминанты здоровья, данные о длительном лечении после неотложной помощи и специальные данные о заболеваниях, и передали их в централизованное хранилище, куда ученые-исследователи могли подать заявку на доступ для изучения воздействия COVID-19.

В 2020 году монументальная инфраструктура RDB была развернута за 6 недель и сразу же расширила границы связанных медицинских данных. До создания RDB не существовало другого централизованного хранилища, содержащего данные из такого широкого спектра источников, о более чем 300 миллионах пациентов, полностью деидентифицированных, в которых токены позволяли связываться.

Революционные исследования результатов лечения пациентов с помощью RDB

Год назад мы выделили несколько новаторских исследований, построенных на основе RDB. Наша первоначальная цель при написании этой публикации состояла в том, чтобы осветить больше новаторских исследований, появившихся в RDB, но сейчас их слишком много (по крайней мере 60), чтобы обсудить их в коротком сообщении в блоге. Большая коллекция этих исследований доступна на веб-сайте Health and Human Services Technology Group (HTG), и еще больше исследований появилось на портале Национального бюро экономических исследований (NBER).

Подобные исследования были либо невозможны, либо крайне редки до RDB.

Во всех этих исследованиях использовалась технология токенизации Datavant, и многие из этих исследований было невозможно выполнить до создания РБД. Например, Engy Ziedan и др. исследовал последствия смертности от потрясений в сфере здравоохранения. Насколько им известно, это было первое исследование экономики здравоохранения, в котором использовалась связь между данными ЭУЗ и данными о смертности. Еще одним нововведением является статья Самера Харруби и Марвы Диаб-Эль-Хараке о половых различиях в диагностике COVID-19, опубликованная в Frontiers in Public Health.

Подобные исследования были либо невозможны, либо крайне редки до RDB по нескольким причинам. Большинство ученых-исследователей не имеют возможности работать с данными из реального мира, поскольку их получение дорого обходится и часто разрознено между компаниями и организациями. Исследовательские гранты часто ограничены по времени и объему, поэтому ученые иногда колеблются, если исследование требует изучения новой структуры или технологического стека. Кроме того, даже если у исследователя есть доступ к необходимым наборам данных, задача анализа токенизированных данных и разработки специального алгоритма сопоставления для сравнения наборов данных с десятками миллионов записей, содержащих переменное количество токенов на запись, может оказаться непосильной задачей для проведения исследования.

Чтобы еще больше усложнить этот сценарий, личная информация (PII) находится в постоянном движении в наборах данных: пациенты переезжают, меняют свои имена и претерпевают изменения пола. Когда PII человека изменяется, токены в наборе данных изменяются соответственно этим колебаниям. Многие ученые-исследователи просто не имеют поддержки со стороны инженерной группы, которая могла бы управлять такого рода работой помимо проведения фактического исследования.

Сравнение записей перед Datavant Match

С самого начала задачей Datavant было подключение данных о состоянии здоровья в мире для улучшения результатов лечения пациентов, но срочность глобальной пандемии ускорила потребность в более быстрых и надежных исследованиях. Создание РБД стало монументальным шагом в соединении множества хранилищ данных, решив одну из самых больших проблем, препятствующих таким крупномасштабным исследованиям. Для Datavant RDB подчеркнул ценность сложной технологии сохранения конфиденциальности записей Datavant Match. RDB стала для нас испытательным полигоном, реальным примером использования, чтобы продемонстрировать эффективность и действенность нашей технологии для связывания реальных данных (RWD) и открыть новые горизонты исследований.

До того, как Datavant Match была включена в RDB, Datavant собирал когортные данные, генерировал набор токенов на основе различных полей базовой PII и возвращал когортные данные обратно клиенту с примененными токенами.

Ниже приведен упрощенный обзор нашего процесса генерации токенов, за которым следует пара записей с прикрепленными к ним токенами.

Чтобы узнать больше о том, как Datavant генерирует токены, вы также можете посмотреть эту статью.

Затем исследователю нужно было разработать собственный алгоритм и код для сравнения записей в связанных наборах данных в RDB, чтобы определить, например, принадлежат ли две записи, показанные выше, одному и тому же человеку. На самом деле исследователь может работать с большим количеством токенов, чем с 3 или 4 токенами, показанными выше.

Четкий сигнал среди зашумленных данных

Было бы очевидно (и, возможно, глупо) заявить, что большой токенизированный набор данных содержит много информации, но стоит помнить, что не вся информация в таком наборе данных будет иметь отношение к каждому потенциальному варианту использования, который может быть сообщен этот набор данных. Чтобы РБД была полностью функциональной для самого широкого круга исследователей, независимо от их инженерных способностей, бремя сопоставления записей необходимо было снять с плеч пользователей. Datavant Match позволяет избавиться от «шума» большого набора данных и быстрее получить значимые наблюдения.

Datavant Match построен на вероятностном алгоритме машинного обучения, обученном на более чем 6 миллиардах пар реальных записей, который согласовывает, устраняет дубликаты и связывает данные. Match анализирует токены и определенные сквозные поля, применяемые к каждой записи, для создания уникального идентификатора Datavant. Этот уникальный идентификатор позволяет исследователю значительно упростить определение того, принадлежат ли две записи, содержащие разные PII (и, следовательно, разные токены), одному и тому же лицу или нет. Ниже приведены те же два примера записей, показанные выше. Они были определены компанией Datavant как совпадающие, что подтверждается их совпадающим идентификатором Datavant ID.

Datavant Match использует наше новое поколение токенов, которые используют сложную стандартизацию имен и адресов, что позволяет нам сопоставлять записи, даже если они содержат опечатки в PII.

С Match заинтересованному исследователю больше не нужно изобретать собственные средства для сравнения множества столбцов токенов, чтобы определить, соответствуют ли несколько записей одному человеку. Это также избавляет от необходимости беспокоиться о том, почему к одному набору данных может быть применено только 2 токена, а к другому набору данных может быть применено 3 или 4 токена.

Пользователи также могут настроить целевую точность и отзыв соответствия в зависимости от варианта использования, изменив порог связывания. Некоторые варианты использования могут предпочесть более высокую точность за счет отзыва, и наоборот.

Высокая точность (т. е. более высокий порог для определения совпадения) полезна в случаях использования исследовательского уровня, позволяя клиентам минимизировать ложноположительные совпадения.

Примеры включают:

Внешние рычаги управления
Набор в клинические испытания
Исследования общественного здравоохранения
Реальные доказательства показаний и долгосрочные исследования безопасности

Высокая полнота (т. е. более низкий порог для определения совпадения) хорошо подходит для коммерческой аналитики и исследований в области экономики здравоохранения и результатов исследований. Этот параметр уменьшает число ложноотрицательных совпадений

Примеры включают:

Бремя болезни
Сравнительные исследования эффективности
Анализ экономической эффективности
Долгосрочные наблюдательные исследования

Вы можете прочитать в другом месте этого блога, где мы исследовали некоторые стратегии сравнения записей и поправки на точность и полноту.

(Кстати, теперь, когда Datavant Match доступен как часть RDB, исследовательские группы, которые уже опубликовали данные в RDB, планируют последующие исследования, сравнивающие их собственные алгоритмы сопоставления с технологией Datavant, которую, возможно, можно считать новой формой самопроверки!)

Сохранение конфиденциальности при связывании данных

Все наборы данных, поступающие в RDB, должны быть сертифицированы как обезличенные. Datavant ID — это высоконадежный зашифрованный ключ, который сохраняет конфиденциальность и позволяет установить связь с пациентом. В RDB исследователи могут выбрать доступ к отдельным наборам данных (несвязанным) или к наборам данных, которые уже связаны. В случае несвязанных наборов данных Datavant ID можно использовать в качестве инструмента устранения дублирования или в качестве инструмента для определения того, полезен ли конкретный набор данных для конкретного исследования. Поскольку связывание наборов данных обязательно увеличивает вероятность того, что PII будет привязана к конкретному лицу, связанные наборы данных подверглись более глубокому исправлению своих данных. Или, если подойти с другой стороны, несвязанные наборы данных обязательно предлагают больше областей информации, вокруг которых можно проводить исследования. Datavant Privacy Hub предоставляет экспертную оценку для всех связанных наборов данных в RDB.

Мы все еще только пробуем потенциальные идеи.

Революция в исследованиях и улучшение результатов лечения пациентов

Datavant Match уже провел множество исследований за пределами RDB. Некоторые из этих исследований оказались в центре внимания национальных СМИ из-за типов данных, которые они сравнивают. В частности, команда из Йельского университета опубликовала рабочий документ NBER, в котором были сопоставлены данные о смертности и записи избирателей, новое исследование, которое было опубликовано в Нью-Йорк Таймс и Вашингтон Пост.

В июне 2022 года RDB перешла со своего предыдущего места размещения в Medidata на постоянный дом с технологической группой HHS (HTG), чтобы создать воспроизводимую масштабируемую модель для исследований, основанную на связанных данных реального мира, а не только на данных, связанных с COVID-19. В рамках перехода на HTG мы использовали технологию Datavant для реализации связанных наборов данных RDB от начала до конца: для каждого источника данных, который должен быть связан через Match, мы построили отдельный сегмент и использовали наш Remediation Engine для реализации деидентифицирующей операции, описанные Центром конфиденциальности в экспертных заключениях по конкретным наборам данных. В прошлом этот набор исправлений можно было реализовать только через SQL на стороне наших технических партнеров. В продуктовой версии это происходит одним нажатием кнопки!

Спустя два года после создания Исследовательской базы данных COVID-19 мы все еще только начинаем исследовать потенциальную информацию, которая может быть получена путем предоставления академическим исследователям доступа к токенизированным, связанным реальным и коммерческим источникам данных. Теперь, когда Datavant Match полностью интегрирован в RDB, все исследователи, независимо от их способности разрабатывать решения для сопоставления записей, имеют улучшенную возможность изучать записи в пределах одной когорты и сравнивать записи в разных когортах. Несколько лет назад многие идеи, появившиеся из RDB, были всего лишь несбыточными мечтами. Эти идеи уже предложили новые способы понимания как нашего здоровья, так и данных о нашем здоровье.

Ссылки

Список технических партнеров, которые сделали возможным использование RDB, можно увидеть здесь:
https://covid19researchdatabase.org/#data

Дополнительная литература об исследованиях на основе RDB:
https://covid19researchdatabase.org/blog/

Об авторах

Авторы Алеа Пеффер, Изабель Франсиско и Николас ДеМезон

Алеа Пеффер является руководителем отдела успешного продукта в компании Datavant, где она является профильным экспертом Match в команде успешного продукта. Она работала над исследовательской базой данных COVID-19 с октября 2021 года по март 2022 года в рамках своего Проекта первого дня в Datavant. Свяжитесь с Алеей через Linkedin.

Изабель Франсиско — руководитель направления продуктов для государственного сектора в Datavant. RDB был Проектом первого дня Изабель, в котором она сосредоточилась на поддержке исследователей для RDB COVID-19. Затем она руководила переходом платформы RDB на HTG и продолжает работать с HTG над новыми возможностями, созданными RDB. Свяжитесь с Изабель через Linkedin.

Николас ДеМейсон пишет для Datavant, где он возглавляет инициативы Talent Branding Initiatives. Свяжитесь с Ником через LinkedIn.

Собираетесь присоединиться к команде? Посетите нашу страницу вакансий и посмотрите, что мы включены в Лучшие работодатели стартапов Америки по версии Forbes 2022 года. В настоящее время мы проводим удаленный набор сотрудников в команды и хотели бы поговорить с любыми новыми потенциальными датвантерами, которые приятны, умны и добиваются цели.