ИИ после AlphaFold

В новом препринте описывается новый безпараметрический геометрический преобразователь координат атомов для предсказания биологических интерфейсов в белках.

И он работает так быстро, что может даже сканировать большие ансамбли белковых структур для поиска аминокислот, склонных к взаимодействию.

Машинное обучение, искусственные нейронные сети и другие математические методы, основанные на «искусственном интеллекте» (мне не очень нравится этот термин, но он прилип!) применялись к научным задачам на протяжении десятилетий. Но, как мы все знаем, сейчас они находят беспрецедентное применение, радикальным образом меняя такие науки, как химия и биология.

Вероятно, одно из самых поразительных применений современного ИИ — это предсказание белковых структур, которое началось около 5–10 лет назад и достигло своей цели благодаря AlphaFold 2, представленному в конце 2020 и 2021 годах. Я подробно обсуждал AlphaFold 2 в предыдущих статьях:





Ученые, работающие над прогнозированием структуры белка, сначала испытывали негативные эмоции по поводу воздействия AlphaFold, потому что это как бы разрушило их собственные поля, достигнув многих из их долгожданных целей. Однако после непродолжительного траура они воспользовались AlphaFold, чтобы сделать новые открытия и разработать новые инструменты, многие из которых я уже обсуждал:



Ведь AlphaFold 2 не решил всех актуальных проблем молекулярной и структурной биологии. На самом деле, он решил только небольшую часть огромной головоломки (что вовсе не делает ее маленькой!) То, что AlphaFold 2 вроде как решил (я говорю «отчасти», потому что даже эта проблема не решена полностью; и я продолжайте подчеркивать AlphaFold 2, потому что его первая версия еще не была так хороша) предсказывает так называемые «третичные структуры» белков, что по существу означает, как составляющие их атомы располагаются в трехмерном пространстве.

Но белковые структуры имеют несколько уровней сложности. Белки представляют собой длинные линейные цепочки аминокислот, которые складываются в трехмерные структуры для получения третичных структур, но они, в свою очередь, могут образовывать структуры более высокого порядка, т. е. комплексы между несколькими белками или между белками и другими биологическими макромолекулами, такими как нуклеиновые кислоты (ДНК и РНК) или с мембранами, ионами, малыми молекулами и т. д. Фактически в большинстве случаев биологическая функция белка определяется этими комплексами или модулируется физиологически значимым образом.

Когда белок взаимодействует с другим белком, мы говорим о белково-белковом комплексе, и AlphaFold 2 может предсказать некоторые из этих взаимодействий (особенно в своем варианте «AlphaFold Multimer»), но пока не очень хорошо это делает. И если мы рассмотрим другие типы взаимодействий, которые могут устанавливать белки, то AlphaFold не в счет. Он просто не предназначен для предсказания взаимодействий между белками и молекулами, отличными от белков, такими как ДНК, РНК, ионы, небольшие молекулы, такие как аминокислоты, метаболические промежуточные продукты, клеточные сигнальные молекулы и т. д. или биологические мембраны и их составляющие, липиды.

Моделирование этих других взаимодействий — следующий шаг на пути к моделированию биологических структур, взаимодействий и функций на атомном уровне, и многие группы работают над этим годами. Меня не удивит, если сам Deepmind теперь перейдет к рассмотрению некоторых других взаимодействий, в которых могут участвовать белки. В частности, специфическое предсказание связывания малых молекул имеет огромное значение для фармацевтики, потому что большинство соединений клинического применения небольшие молекулы, взаимодействующие со специфическими белками.

Чтобы узнать больше о следующих направлениях использования ИИ в прогнозировании структуры белков и структурной биологии/структурной биоинформатике в целом, вы можете прочитать эту недавнюю статью, которую я написал:



Прогнозирование того, с чем будет взаимодействовать белок, с помощью геометрического преобразователя без параметров

Новый препринт из лаборатории, в которой я работаю, решает именно этот вопрос, используя новую формулировку:

Учитывая структуру или модель белка, предскажите, какие интерфейсы он может образовывать для связывания с другими белками, нуклеиновыми кислотами, липидами, ионами или другими видами малых молекул.

Докторант, руководивший этой работой, разработал геометрический преобразователь, который считывает и обрабатывает трехмерные координаты входного белка и выдает оценки, специфичные для остатков, которые предсказывают, насколько вероятно, что каждая аминокислота белка будет частью интерфейса с другим белком (белками). с нуклеиновой кислотой/ами, с ионом/ами и т. д. Метод, названный PeSTo в честь преобразователя структуры белка, имеет очень высокую точность, почти не путает интерфейсы и имеет несколько преимуществ перед альтернативными методами. :

  • Запуск модели не требует каких-либо расчетов поверхности входного белка, как это требуется для большинства альтернативных методов. Расчеты поверхности выполняются медленно и очень чувствительны к ошибкам в трехмерных структурах.
  • Модель выполняется за миллисекунды, включая время ее загрузки, что означает, что вы можете обрабатывать большое количество структур за короткое время. На самом деле он настолько быстр, что может обрабатывать целые траектории молекулярной динамики за секунды, что оказывается полезным для идентификации переходных интерфейсов, которые доступны только при движении белка, как мы показываем. Мы также могли бы обрабатывать весь человеческий протеом, открывая новую биологию.
  • Модель не полагается на какую-либо параметризацию или даже классификацию, так как она полностью обучается на основе атомных элементов и позиций в пространстве. Таким образом, хотя мы и применили PeSTo к белкам и их атомам C, N, O, он должен легко переобучаться для других целей, например, в материаловедении.

Новый геометрический преобразователь координат атомов

Позвольте мне упомянуть несколько ключевых моментов о том, как работает PeSTo. Для более подробной информации вы можете обратиться к препринту:



PeSTo рассматривает белковые структуры как облака точечных атомов, представляя геометрию через попарные расстояния и относительные векторы смещения, которые гарантируют инвариантность к трансляции. Каждый точечный атом описывается с использованием только его элементарного имени и без какой-либо числовой параметризации, используемой в других методах, таких как радиус или заряд. Каждый атом кодируется с помощью геометрического преобразователя, который учитывает его локальное соседство посредством скалярных и векторных состояний и расстояний, вычисляемых из окружающих атомов на увеличивающихся расстояниях. По запросу этот дескриптор распространяется по сети, создавая выходные данные, специфичные для атома, посредством операции внимания с несколькими головками. Затем выходные данные на основе атомов собираются для каждого остатка белка двумя дополнительными модулями, которые в конечном итоге предсказывают, будет ли каждый остаток белка находиться на границе раздела или нет.

Основываясь на наборе данных, полученном из банка данных о белках, мы обучили модель выводить по остаткам вероятности участия в интерфейсах белок-белок, белок-нуклеиновая кислота, белок-ион, белок-лиганд, белок-ион и белок-липид. .

Реализация веб-сервера и конкретный пример

Препринт включает несколько избранных примеров. Я покажу вам здесь один конкретный пример, который я запустил на реализации веб-сервера по адресу https://pesto.epfl.ch.

Когда вы заходите на веб-сайт, вам предоставляется возможность делать прогнозы на:

  • Структура белка из PDB, введенная с его 4-значным идентификатором.
  • Модель белка, предварительно рассчитанная в базе данных AlphaFold-EBI, введенная как идентификатор UniProt.
  • Структура/модель белка, которую вы загружаете.

Давайте попробуем здесь структуру из PDB, так как это позволяет мне представить еще одну особенность страницы ввода:

Я специально взял 4ITQ. Это рентгеновская структура белка, связанного с ДНК. Биологическая сборка, аннотированная в PDB, отмечает одну конкретную поверхность белок-ДНК, но эксперименты ЯМР на основе раствора, которые я проводил на родственном белке для другой работы, выявили более обширную поверхность, взаимодействующую с ДНК. Что предсказывает PeSTo?

Давайте сначала посмотрим на все предсказания PeSTO для этого белка:

PeSTo образует довольно большую поверхность остатков, которые могут быть вовлечены в связывание нуклеиновых кислот, а также петлю, которая может связывать ионы. Ничего для связывания других белков, липидов или лигандов, кроме ионов.

Интерфейс для связывания ДНК очень велик и очень согласуется с результатами ЯМР в моей предыдущей статье, которые указывали на связывание по крайней мере через два интерфейса, а не только через один, как предполагает рентгеновская структура. Более того, эксперименты с АСМ в этой статье показали, что этот белок создает прочные петли и изгибы в ДНК, предположительно, поскольку он заставляет ДНК оборачиваться вокруг него, раскручивая его для достижения какой-то пока неясной биологической функции.

Приложения для обнаружения интерфейсов в моделировании молекулярной динамики и в складках

PeSTo работает так быстро, что мы можем применить его к очень большому количеству структур. В нашем препринте мы попробовали его в качестве инструмента для идентификации интерфейсов в белках, подлежащих молекулярному моделированию, и для сбора структур полного протеома человека.

Применительно к моделированию молекулярной динамики PeSTo очень полезен, поскольку он может автоматически обнаруживать интерфейсы, которые могут быть неочевидны в структуре, используемой для запуска моделирования, но могут быть выявлены при динамике. Это может быть особенно полезным для обнаружения так называемых скрытых карманов, то есть небольших карманов на поверхности белка, которые появляются и исчезают при движении белка и, следовательно, могут быть потеряны в статических рентгеновских структурах.

Дальнейшее и связанное чтение

Препринт:



Обновление: наша статья опубликована в Nature Communications:



А вот основная история, связанная со всеми моими статьями об AlphaFold и прогнозах структуры белка:



Путеводитель по статьям моего блога, посвященным AlphaFold
Краткое изложение моих статей «На пути к науке о данных
, в которых обсуждаются наиболее важные разработки, произошедшие со времени написания кода AlphaFold 2…lucianosphere.medium.com»



Deepmind работает над применением ИИ и в других областях науки:



Метод, который предсказывает взаимодействия белков, но посредством геометрического глубокого обучения на поверхностях:



www.lucianoabriata.com Пишу и снимаю обо всем, что лежит в сфере моих широких интересов: природа, наука, технологии, программирование и т. д. Стать участником Medium , чтобы получить доступ ко всем его историям (партнерские ссылки платформы, за которые я получаю небольшой доход бесплатно для вас) и подписаться, чтобы получать мои новые истории по электронной почте. Чтобы проконсультироваться по поводу небольших вакансий, посетите мою страницу услуг здесь. Вы можете связаться со мной здесь.