Используйте Alphafold2 с ограниченными вычислительными ресурсами

Уже не новость, что одна из самых серьезных проблем в биологии была решена базирующейся в Лондоне компанией по искусственному интеллекту — DeepMind. Они выиграли 14-е издание Критической оценки прогнозирования структуры белка (CASP14) с оценкой достоверности 90. Летом 2021 года DeepMind опубликовала знаменательную статью.



DeepMind назвала свою платформу для фолдинга белков AlphaFold (обновленная версия — AlphaFold v2.3.0 на момент написания статьи). Они выложили исходный код на GitHub для открытого доступа. Однако развертывание открытого исходного кода AlphaFold2 на GitHub требует огромных вычислительных ресурсов; для загрузки базы данных требуется 12 виртуальных ЦП, 85 ГБ ОЗУ, загрузочный диск на 100 ГБ, диск на 3 ТБ и графический процессор A100. Кроме того, пользователь должен хорошо разбираться в Linux и развертывать контейнеры докеров и другие зависимости. Цель этой статьи — познакомить читателей с простыми альтернативными инструментами, доступными для использования чуда AlphaFold.

Эта статья средней длины (без каламбура), поэтому, пожалуйста, оставайтесь со мной.

Я буду обсуждать:

· Как работает AlphaFold

· Показатели оценки эффективности

· Метод EMBL-EBI

· Метод блокнота Colab

· Ограничения AlphaFold2

· Заключение

Так как же работает AlphaFold2?

В целом AlphaFold2 состоит из обученного множественного выравнивания последовательностей (MSA), парных остатков и шаблонов PDB 100 000 известных белковых структур (подтвержденных экспериментально с помощью ЯМР, рентгеновской кристаллографии, крио-ЭМ) из метагеномных баз данных. Эвоформер AlphaFold2, нейронная сеть из 48 блоков, был построен на основе концепций, полученных из больших языковых моделей (LLM), токенизации, преобразователей и внимания.

Эвоформер выводит MSA и парные представления, которые передаются в модуль прогнозирования структуры. Эти блоки используют инвариантное точечное внимание для предсказания единственной репрезентативной копии первой строки MSA, которая, следовательно, направляется для предсказания 𝛘 торсионных углов между предсказанными атомами белковых остатков: по сути, размещение взаимосвязанных атомов рядом с пептидным остовом в размер XYZ. Окончательная предсказанная структура белка ослаблена, чтобы оптимизировать их энергетический ландшафт с использованием силовых полей openMM от Amber, уменьшая стерические столкновения и энергетические нарушения.

Показатели оценки эффективности

AlphaFold2 (AF2) выводит трехмерную структуру белка, а производительность модели оценивается с помощью трех показателей достоверности.

Прогнозируемый тест локальных различий (pLDDT) в диапазоне от 0 до 100 представляет собой показатель достоверности для каждого остатка, означающий достоверность прогноза модели для каждого аминокислотного остатка относительно 𝛂 атомов углерода.

Например, на изображении выше показано предсказание с помощью цветовой кодировки pLDDT серин/треонинкиназы-мишени рапамицина (mTOR) человека-млекопитающего. pLDDT > 90 означает очень высокую достоверность, 70–90 — достаточно хорошую достоверность, а ‹70 — низкую достоверность модели. pLDDT может помочь нам оценить, насколько хорошо модель работает в отношении белковых областей или доменов.

Прогнозируемая ошибка выравнивания (PAE) дает нам междоменные/внутридоменные расстояния между двумя остатками X и Y относительно истинных структур при выравнивании в одной плоскости. Просто, насколько хорошо остатки расположены относительно других остатков в пространстве. Как правило, расстояния варьируются от 0 до 35 ангстрем для уверенного прогноза. AF2 гордится тем, что может лучше предсказывать относительное положение остатков в одном и том же домене (внутридоменные остатки) по сравнению с остатками в разных доменах (междоменные остатки). Это имеет смысл, потому что остатки внутри домена более статичны по сравнению с остатками в других доменах. Модель выводит график PAE, который сопоставляет положения остатков по осям X/Y.

Прогнозируемый показатель моделирования матрицы (pTM) измеряет структурную конгруэнтность между двумя структурами свернутых белков. AlphaFold2 позволяет включать шаблоны PDB для моделирования как часть параметров моделирования. Хотя шаблоны не требуются для прогнозов, они могут повысить производительность модели. Диапазон pTM от 0 до 1 обеспечивает основу для AF2 для ранжирования 5 прогнозируемых выходных данных. Прогнозы с pTM ‹ 0,2 представляют собой либо стохастически заданные паттерны остатков с незначительной корреляцией или без корреляции с предполагаемой нативной структурой, либо представляют собой внутренне неупорядоченные белки. РТМ >0,5 обычно достаточно силен, чтобы сделать вывод.

Теперь, когда мы обсудили основы AlphaFold и его показатели, мы можем углубиться в методы с низким уровнем вычислений, чтобы изучить AlphaFold.

Метод EMBL-EBI

Чтобы обеспечить легкий доступ к AlphaFold2, DeepMind сотрудничал с Европейской лабораторией молекулярной биологии, группой биоинформатики, чтобы курировать белки для 48 широко изучаемых видов, включая людей, мышей, крыс, человекообразных обезьян, плодовых мух и дрожжей. База данных содержит более 1 миллиона структур, охватывающих 48 протеомов организма. Хотя это мизерное число по сравнению с 200 миллионами с открытым исходным кодом, которые может предложить AlphaFold2. Однако этот сверхлегкий API компенсирует большие затраты на вычисления, связанные с открытым исходным кодом. Доступ к веб-странице можно получить по ссылке ниже



На веб-странице пользователи могут искать интересующий их белок по названию белка, названию гена, присоединению UniProt и идентификатору UniProt. Дополнительным альтернативным процессом поиска может быть последовательность, если название белка неизвестно. Неизвестные белки можно расшифровать, введя последовательность белка в другой инструмент под названием Fasta (ссылка ниже).



На Fasta пользователи могут искать макромолекулы, включая белки, вводя известную последовательность со ссылкой на универсальную базу данных белков, например. ЮниПрот.

Веб-страница EMBL-EBI выводит свернутую структуру в формате HTML с цветовой кодировкой pLDDT и генерирует график PAE. Пользователи могут загрузить предсказанную структуру белка в формате PDB, mmCIF или JSON. EMBL-EBI работает быстро и почти мгновенно. Он не требует установки или зависимостей. Недостатки веб-страницы EMBL-EBI включают отсутствие гибкости при вводе последовательности и то, что она может работать только для мономерных структур. Кроме того, эти модели нельзя настроить для предсказания дестабилизирующих мутантных остатков или доменов. По сути, они хороши для готовых прогнозов и вносят мизерный вклад в вывод или выдвижение гипотез.

Метод блокнота Colab

Блокнот colab — это веб-сайт, на котором размещено приложение, написанное на Python. Совместная записная книжка AlphaFold размещена на облачных серверах Google. Пользователям необходимо инициализировать и подключиться к серверу, который выделяет ресурсы GPU или TPU (ОЗУ и диск) для каждого сеанса ноутбука colab. С точки зрения пользовательского опыта, это наиболее близко по функциям к предсказаниям с открытым исходным кодом. Блокнот Colab AF2 выделяет вычислительные ресурсы пользователям, однако выделенные ресурсы не являются конечными и вынуждают пользователей ограничиваться 800 остатками для оптимизации прогнозирования. Выше этого потолка производительность AF2 может резко упасть. Другие недостатки блокнота Colab включают значительное время ожидания (зависит от выделения ресурсов для этого экземпляра). Не подходит для больших пакетных заданий, по существу оптимален для предсказания одной последовательности. Тем не менее, по сравнению с базой данных EMBI-EBI, блокнот colab допускает некоторые модификации методов прогнозирования.

Пошаговая инструкция по использованию блокнотов AlphaFold2 для совместной работы

Найдите в Google «блокноты AlphaFold2 colab» или воспользуйтесь этой ссылкой.



Раскрывающееся меню повторного подключения подключает пользователей к облачным серверам Google. Этот шаг выделяет GPU пользователю для сеанса. Будьте осторожны, чтобы разумно использовать свои сеансы, потому что выделение графического процессора является постоянным, и соединение разрывается, когда выделенный графический процессор исчерпан. Тем не менее, Google предлагает пользовательский сервис премиум-класса, который предоставляет вам почти бесконечный GPU. Белок MSA помещается в поле query_sequence.

Кроме того, обязательно проверьте последовательность, закройте пробелы и отступы перед запуском задания. Межцепочечные разрывы могут быть обозначены двоеточием (:). Например, -EQVTNVGGAVVTGVTAVA:EQVTNVGGAVVTGVTAVA означает гомодимер. Янтарные силовые поля расслабляют трехмерную структуру белка. Это позволяет боковым цепям свободно вращаться с минимальными стерическими столкновениями и термодинамическими нарушениями. Этот шаг является необязательным и существенно не улучшает производительность модели.

Кроме того, msa_mode предоставляет параметры модальности поиска последовательности. По умолчанию используется режим поиска последовательности «многие против многих» с uniRef и окружающей средой. Пользователи могут использовать только MMseq2 uniRef или предоставить собственный режим поиска последовательности.

Функция model_type позволяет пользователям выбирать структурные размеры прогнозируемого белка. Эта функция позволяет прогнозировать олигомерные или мультимерные структуры. Выберите опцию Alphafold-multimer v1 или v2, если вы работаете с олигомерной последовательностью, или Alphafold2-ptm, если структура является мономерной. Опция auto позволяет модели решать. Авто по умолчанию.

Функция num-recycles позволяет модели повторять последовательность и прогнозы несколько раз. Это одна из причин, по которой требуется графический процессор, поскольку он позволяет машине выполнять параллельные задания. Количество повторов по умолчанию равно 3, однако рекомендуется масштабировать до 6 или более, пока модель не достигнет почти точного прогноза. Кроме того, следует отметить, что время выполнения увеличивается с количеством повторных циклов.

Чтобы запустить задание, нажмите раскрывающееся меню среда выполнения и выберите «Выполнить все». Это последний и, наверное, самый простой шаг. Однако, если задание прерывается из-за нарушения подключения к Интернету или доступности графического процессора, весь процесс может быть остановлен. Таким образом, параметр «Выполнить все» требует, чтобы пользователь сохранял подключение к Интернету и открытую страницу блокнота Colab до завершения задания.

После завершения блокнот AlphaFold2 colab возвращает прогнозы 5 моделей с соответствующими pTM и pLDDT. Ранжируется «лучшая» предсказанная структура, и результаты могут быть загружены на локальный диск компьютера пользователя или на диск Google. ZIP-файл содержит структуры PDB для 5 прогнозов (10, если вы использовали параметр релаксации янтарного цвета), соответствующий график PAE и 5 файлов JSON для координат или матриц PAE и pTM.

Ограничения AlphaFold2

AlphaFold2 узурпировал текущую парадигму белков и структурной биологии в целом. Это определенно одно из самых впечатляющих применений ИИ в биологии. Несмотря на этот гигантский шаг, у AF2 есть свои ограничения. AF2 имеет незначительную точность прогнозирования с вариантными белками, миссенс-делециями или мутациями. Вот две публикации, выражающие это ограничение.





Однако не расстраивайтесь! Группа Дэвида Бейкера из Вашингтонского университета разработала дочерний проект AlphaFold2 под названием RosettaFold. RosettaFold делает более убедительную работу по прогнозированию структур мутантных белков (в 1,25 раза лучше производительность модели по сравнению с преобразователями MSA, например, AF2). Вот бумага.



В целом, AF2 работал намного лучше, чем другие доступные варианты до его появления. Будь то предсказание торсионных углов и направлений свертки строительных блоков белков или их относительное расположение в пространстве.

Заключение

База данных EMBL-EBI и записная книжка Google Colab AF2 обеспечивают доступ к моделям AF2, избавляя пользователей от вычислительных проблем, связанных с высокопроизводительными вычислительными средами. Я надеюсь, что смог указать вам правильное направление и дать некоторое представление об утилите AF2 без необходимости использования традиционной вычислительной командной строки и ресурсов.

Получайте удовольствие, используя AlphaFold2! действительно революционный инструмент.

Ссылки

  1. Джампер Дж., Эванс Р., Притцель А. Высокоточное предсказание структуры белка с помощью AlphaFold. (2021), Природа. ;596(7873):583–589. дои: 10.1038 / с 41586–021–03819–2
  2. Баумкеттер Ф., Шмидт Н., Варгас С. и др. Димеризация белка-предшественника амилоида и синаптогенная функция зависят от связывания меди с доменом, подобным фактору роста. (2014), J Neurosci.
  3. Ван М., Аудас Т.Э., Ли С. Избавление от плохой репутации: изменение восприятия амилоидов. (2017), Trends Cell Biol. ;27(7):465–467. doi: 10.1016/j.tcb.2017.03.001