Эффективность приложений ИИ может быть подорвана большими объемами неструктурированных данных, распространенных в фармацевтической отрасли. Что можно сделать, чтобы решить эту проблему?

Мы живем в захватывающее время для фармацевтической промышленности. Передовые технологии, такие как искусственный интеллект (ИИ) и блокчейн, попадают в заголовки газет или революционизируют все, от открытия лекарств до клинических испытаний. Многие из этих инноваций основаны на одном и том же фундаменте: больших данных. Но для того, чтобы такие технологии, как ИИ, полностью реализовали свой потенциал, необходимо решить давнюю проблему, связанную с большими данными. Эта проблема — неструктурированные данные.

Неструктурированные данные и фармацевтический ИИ

Необходимость преодоления этой проблемы можно проиллюстрировать, изучив влияние неструктурированных данных на эффективность приложений ИИ в фармацевтической и медико-биологической отраслях.

Как я уже писал в прошлом, историю ИИ можно рассматривать сквозь призму трех различных волн. Первая волна принесла программное обеспечение для инженерии знаний, которое позволяло эффективно решать практические задачи. Вторая волна принесла программы машинного обучения, которые позволили автоматически распознавать образы и выполнять расширенный статистический анализ. Сейчас мы вступили в третью волну ИИ, которая способна генерировать новые гипотезы, анализируя огромные наборы данных.

ИИ третьей волны может значительно ускорить процесс исследований и разработки новых лекарств, что уже начали открывать такие компании, как Мерк и Ко и Санофи. Применение программ ИИ третьей волны способствовало таким медицинским открытиям, как связь между рыбьим жиром и болезнью Рейно.

Но приложения ИИ третьей волны также потерпели ряд неудач в здравоохранении и фармацевтике. Ярким примером служат проблемы доктора медицины Андерсона с IBM Watson. В этом случае все проблемы начались, когда MD Anderson сменила поставщика электронных медицинских карт (EMR), что предотвратило доступ Watson к необходимым данным. Этот пример иллюстрирует проблему, связанную с неструктурированными данными, и соответствующую потребность в большей целостности данных в отраслях медико-биологических наук.

Целостность данных в науках о жизни

Эффективная работа многих современных программ ИИ зависит от качественных и точных данных. Если доступ к таким данным скомпрометирован, способность программы ИИ проводить анализ и генерировать гипотезы подрывается.

Наборы данных в фармацевтической и медико-биологической отраслях представляют собой особую проблему для программ ИИ из-за необычной плотности, глубины и разнообразия биологических данных. Поскольку сложность биологических данных делает их непонятными для многих программ ИИ, большинство фармацевтических исследований сегодня проводится вручную. Исследователи-люди собирают данные, выдвигают гипотезы и проводят эксперименты почти так же, как они делали это десятилетиями. В отсутствие автоматизации процесс открытия, разработки и тестирования лекарств становится неэффективным, дорогим и часто неточным.

Неэффективность этого процесса вызывает длительные задержки между завершением эксперимента и публикацией его результатов в научных журналах или базах данных. Эта задержка привела к серьезной проблеме с предвзятостью и неточностью публикации в отрасли. Даже движение за открытую науку, пытающееся расширить доступ к еще неопубликованным результатам клинических исследований, зависит от вручную отобранных наборов данных, которые обычно создаются компаниями с частными интересами.

Даже тщательно отобранные наборы данных часто слишком непоследовательны, чтобы их можно было осмысленно проанализировать с помощью ИИ. Возьмем, к примеру, проблему, связанную с аббревиатурами и акронимами в фармацевтической промышленности. Одна и та же аббревиатура может иметь разное значение в зависимости от контекста. «Ca», например, может означать «рак» в одном контексте и «кальций» в другом. Большая часть ИИ зависит от точной и детализированной контекстной информации, а наборы данных, подобранные вручную, часто не соответствуют этой отметке.

Преодоление проблемы неструктурированных данных

К счастью, некоторые из ведущих мировых фирм начали изучать два возможных способа преодоления этих проблем. Один из подходов заключается в том, чтобы просто улучшить состояние доступных наборов данных. Закон HITECH 2009 года смоделировал этот подход путем стандартизации систем ЭМИ для создания более богатых, полных и актуальных наборов биологических данных. В результате разнообразные данные из биологических патентов, клинических испытаний, академических диссертаций и других источников все чаще можно анализировать с помощью передовых программ искусственного интеллекта.

Второй способ преодолеть проблему неструктурированных данных — просто создать более совершенный ИИ. Недавние инновации принесли технологию искусственного интеллекта нормализации контекста, которая может обрабатывать и анализировать неструктурированные, разнородные точки данных, используя комбинацию обработки естественного языка, машинного обучения и передовой текстовой аналитики. Наконец, самые передовые программы искусственного интеллекта могут использовать разрозненные, несовместимые данные для создания новых гипотез без необходимости дорогостоящего вмешательства человека.

Подобные инновации позволяют исследователям анализировать данные, выдвигать гипотезы и проводить убедительные клинические испытания с беспрецедентной скоростью и точностью. Это хорошая новость для фармацевтических компаний, медицинских работников и потребителей.

Об авторе:

Гунджан Бхардвадж является основателем и генеральным директором Innoplexus, лидера в области искусственного интеллекта и аналитики как услуги для отраслей науки о жизни. Имея опыт работы в Boston Consulting Group и Ernst & Young, он объединяет миры искусственного интеллекта, консалтинга и медико-биологических наук для продвижения инноваций.