Почему понадобилось так много времени, чтобы помешать открытию новых лекарств? И как мы наконец это делаем.

Технологии коренным образом подорвали почти все отрасли на Земле и создали огромную ценность, особенно для стартапов и их инвесторов. До сих пор одним явным исключением были фармацевтические препараты. В мире фармацевтики просто нет Amazon или Uber. Посторонних отговаривают от участия из-за чистой научной сложности области, высоких требований к капиталу и сложных правил, требующих тщательной навигации. Это отчасти означает, что крупные транснациональные корпорации, которым 50–150 лет, продолжают доминировать.

Однако времена меняются: технологические компании и инвесторы принимают все большее участие, вкладывая значительные средства в вычислительные подходы к поиску мишеней и открытию новых лекарств. Стартапы в этой сфере собрали более 1 миллиарда долларов только в 2018 году, в то время как Facebook, Google и Microsoft начали проекты по открытию новых лекарств. Компания Google DeepMind, в частности, продемонстрировала значительный потенциал для глубокого обучения в разработке лекарств в рамках своего проекта AlphaFold. Фармацевтические компании тоже в восторге от таких гигантов, как GSK, Novartis и Astrazeneca, инвестирующих в свои собственные внутренние программы AI / ML.

Почему сейчас?

Так почему же все, от руководителей фармацевтических компаний до технических предпринимателей, считают, что настало время для технологической революции? За последние 30 лет процесс открытия лекарств практически не изменился. Начальный пул молекул-кандидатов сокращается с помощью серии проверок и тестов, начиная с пробирки, затем переходя к животным и, наконец, к людям. Если вам действительно повезет, ваша молекула дойдет до клинических испытаний, после чего у вас будет 1 шанс из 10, что ваша молекула будет безопасной, что-то делать и будет одобрена. Возможности для технологий основаны на одном простом факте: этот процесс нас подводит.

Это иллюстрируется законом Эрума - трендом, который не дает уснуть по ночам каждому руководителю фармацевтической компании и охотнику за наркотиками. С 1950 года на каждый миллиард долларов (с поправкой на инфляцию), вложенный в открытие лекарств, мы становимся экспоненциально менее эффективными в преобразовании этих долларов в одобренные лекарства. Сегодня в среднем промышленность обходится в 2 миллиарда долларов, чтобы продвигать лекарство от открытия до выхода на рынок. В 60-е годы это стоило всего 100 миллионов долларов. Эта тенденция обусловлена ​​рядом факторов, но, прежде всего, она обусловлена ​​частотой отказов. Лекарства не работают по целому ряду причин: потому что они токсичны, потому что они неэффективны, потому что они иммуногенны, потому что они агрегируют, потому что они не могут производиться в больших количествах, потому что их in vitro характеристики не воспроизводятся in vivo, потому что они нестабильны, и многое другое. Поиск лекарства, отвечающего каждому из этих критериев, представляет собой игру сложной многопараметрической оптимизации, и становится все труднее найти лекарства, которые соответствуют всем этим критериям.

Последствия этих растущих затрат на разработку серьезны. Сегодня затраты на открытие лекарств означают, что они ограничиваются болезнями, которые могут принести большую экономическую прибыль. Рынок систематически подводит людей с редкими болезнями и болезнями из развивающихся стран. Без государственных стимулов, таких как Закон США о лекарствах для сирот, компаниям экономически нецелесообразно вкладывать так много капитала в лекарства, которые не имеют шансов стать блокбастерами. Это особенно актуально в то время, когда персонализированное здравоохранение кажется одним из самых многообещающих способов лечения болезней. Без резкого снижения затрат на открытие и разработку лекарств мы не сможем извлечь выгоду из этих новых знаний. Если затраты на исследования и разработки в области разработки лекарств будут продолжать расти, они вообще перестанут быть жизнеспособной бизнес-моделью.

Как технологии могут изменить закон Eroom?

Мы были здесь раньше: в начале 2000-х были большие надежды и ожидания, что технология изменит производительность фармацевтической отрасли. Несмотря на значительные вложения примерно в это время, наша производительность продолжала падать. Что на этот раз изменилось? Могут ли машинное обучение и искусственный интеллект действительно изменить ситуацию?

Короткий ответ - да, . Современные методы машинного обучения способны улавливать и раскрывать невероятно сложные и многогранные закономерности, особенно в установлении корреляций, которые могут быть совершенно не интуитивно понятными для человека. Эти сильные стороны делают открытие лекарств идеальным целевым приложением машинного обучения, где основа для успешного лекарства является многофакторной, а наше понимание этих факторов все еще очень ограничено.

Сила и сложность качественных биологических данных

Вопрос здесь не в том, может ли машинное обучение быть полезным инструментом в открытии лекарств, а в том, можем ли мы предоставить ему необходимые данные. Эффективность машинного обучения зависит от качества и количества данных, которые используются для его обучения. Он может указывать на сложные корреляции, которые человек упустил бы, но он не может делать это в вакууме.

Могут ли общедоступные наборы данных дать здесь ответ? Например, общедоступная база данных PubChem содержит более 250 миллионов точек данных из более чем 1 миллиона экспериментов по биологической активности. А как насчет собственных наборов данных от известных компаний? Многие из этих компаний имеют данные за десятилетия предыдущих исследовательских кампаний. Конечно, эти общедоступные и частные наборы данных предоставляют огромное количество информации, которую можно использовать в моделях машинного обучения?

Проблема в том, что эти экспериментальные наборы данных были созданы не с учетом машинного обучения: данные не структурированы таким образом, чтобы их можно было использовать для машинного обучения. Данные, полученные в разных лабораториях или разными людьми, генерируются с использованием слегка разных протоколов, разного оборудования и часто без соответствующей документации. Данные могут быть неполными, в них отсутствуют необходимые отрицательные контроли, чтобы избежать моделирования экспериментального анализа, а не основного признака. Биологические данные зашумлены, а это значит, что машинное обучение обнаружит «тенденции» там, где их нет.

Эта проблема подчеркивается концепцией, известной как «Иерархия потребностей науки о данных». Это показывает, что искусственный интеллект / глубокое обучение могут быть успешно применены только тогда, когда решены проблемы сбора, обработки, хранения и анализа данных. За пределами биологии, начало на вершине этой пирамиды без создания ее основ остается распространенной ловушкой - особенно для стартапов, пытающихся создать шум с помощью ИИ, или корпораций, которые чувствуют необходимость иметь «стратегию ИИ» без подлинного понимание того, что это влечет за собой. В биологии эти требования игнорируются еще чаще из-за огромных инвестиций, необходимых для создания высококачественного потока данных с высокой пропускной способностью из биологической лаборатории.

Большая часть лет становления LabGenius была потрачена на создание этих основ - на внедрение надежных, высокопроизводительных, автоматизированных процессов для производства и хранения правильных данных, прежде чем мы окунемся в машинное обучение. Чтобы гарантировать получение правильных данных, специалисты по обработке данных играют важную роль в разработке наших экспериментальных рабочих процессов - ключевые эксперименты просто не могут быть разработаны без этих людей в комнате. Мы на собственном горьком опыте узнали, что без них данные, которые традиционно считались бы полезными, в конечном итоге оказываются утилизированными. Это дорого и не особенно привлекательно, но, чтобы по-настоящему извлечь выгоду из потенциала ОД в открытии новых лекарств, его нельзя упускать из виду.

Способом использования мощности вычислений и машинного обучения является создание с нуля - создание платформы, которая не только анализирует существующие биологические данные, но и создает такую, которая может генерировать правильные данные, обрабатывать их и надлежащим образом хранить. Игнорируйте эти основы, и мы рискуем, что машинное обучение станет еще одной сноской в ​​наших усилиях по лечению болезней - еще одной технологии, которая обещала изменить открытие лекарств, но не принесла результатов. Инвестируйте в них, и мы начнем разбираться в не интуитивных и непонятных правилах, которые определяют, почему одни лекарства работают, а другие - нет.