Модели Meta ESM-2 и ESMFold для предсказания структуры белка

Как огромные белковые языковые модели могут разрушить структурную биологию

Предсказание структуры с той же точностью, что и AlphaFold, но до 60 раз быстрее, а также благодаря разработке новых методов искусственного интеллекта.

Двумя отличительными чертами современной биологии являются (i) появление моделей машинного обучения для предсказания белковых структур, что привело к настоящей революции в этой области, и (ii) тот факт, что эта революция была совершена исследовательскими лабораториями из частного сектора, а не академики (к счастью, эти рядовые оставляют весь код и модели открытыми, поэтому академики могут в дальнейшем строить на их основе).

Звездой и семенем революции, о которой я говорю, стал DeepMind с его моделью AlphaFold 2 для предсказания структуры белка. Опираясь на это, появились новые модели машинного обучения, в основном в академических лабораториях, которые могут выполнять проектирование белков, предсказание поверхностей взаимодействия и многое другое:





(Для получения дополнительной информации ознакомьтесь с этим кратким изложением всех моих статей о CASP, AlphaFold 2 и связанных технологиях)

Затем в смежной области химии я представил, как DeepMind и Google работают над ускорением квантовых вычислений. Кажется, даже у TikTok есть планы по поддержке квантовых вычислений с помощью методов машинного обучения, поскольку недавно он нанял людей, разбирающихся в этих областях.





Meta, ранее Facebook, уже пару лет работает над чем-то совершенно новым для биологии, что теперь приносит плоды: разработка модели белкового языка, которая «знает» о структуре белка. Как я опишу здесь, Мета создал и развил ряд методов, которые теперь превратились в полный набор для предсказания структуры белка, дизайна и оценки мутаций, полностью основанных на языковых моделях.

Как я объяснял в этой недавней статье, применение языковых моделей к предсказанию структуры белка может помочь преодолеть ограничения таких инструментов, как AlphaFold, которые полагаются на множественное выравнивание последовательностей, а также значительно ускорить скорость, с которой предсказываются структуры белка.

Резюме того, что такое моделирование белковой структуры, как оно развивается, и потенциальное влияние моделей белкового языка.

Вкратце, «моделирование структуры белка» связано с предсказанием того, как белки складываются в трехмерном пространстве, исходя из их аминокислотных последовательностей, а также со всеми сопутствующими вопросами, такими как проектирование последовательностей аминокислот, которые складываются в желаемые трехмерные структуры. Обе проблемы являются центральными для биологии: предсказание структуры для фундаментальной и прикладной биологии, потому что ученым необходимо знать структуры белков, чтобы понять их функции и разработать новые лекарства; и дизайн белков для прикладной биотехнологии, например, для создания новых ферментов или стабилизации существующих.

Определение трехмерных структур белков с помощью экспериментов очень дорого и требует много времени, и может даже остаться безуспешным после многих лет работы. Отсюда актуальность вычислительных методов для прогнозирования трехмерных структур, в идеале максимально точно и быстро. На самом деле, проблема предсказания структуры белка настолько важна для биологии и настолько трудноразрешима, что соревнования между предикторами проводятся каждые два года, начиная с 1994 года. на проблему. После нескольких лет отсутствия, а затем медленных улучшений, DeepMind решила в CASP14 (2020) часть проблемы предсказания структуры белка с помощью своей программы AlphaFold 2 (AlphaFold 1 ранее выиграла CASP13, но едва довела до предела все, что ученые уже знали, не совсем решая проблему).

Теперь мы перейдем к ограничениям AlphaFold и к тому, как могут помочь языковые модели. Чтобы смоделировать белок из его последовательности, AlphaFold 2 сначала строит выравнивание нескольких последовательностей белков, связанных с запросом. Это выравнивание обрабатывается языковой моделью на основе BERT, специализирующейся на белках, которая затем передает числа, полученные в результате выравнивания, в ядро ​​​​сети, которое предсказывает структуру на выходе.

Новые методы, разработанные Meta (а также недавно изученные некоторыми учеными, как я приводил пример ранее), используют гораздо более продвинутые языковые модели, чем BERT. Эти модели так много узнают о белковых последовательностях и эволюционных паттернах, которые связывают последовательности с функциями, что им вообще не нужно выравнивание последовательностей, чтобы их сворачивать. Последние такие методы, только что появившиеся в Meta и называемые ESM-2 и ESMFold, по-видимому, предсказывают структуры белков так же, как AlphaFold 2, но с гораздо более высокой скоростью предсказания и без необходимости вычислять выравнивания, как я объясню и продемонстрирую в следующем. раздел.

Но прежде чем перейти к объяснениям, позвольте мне подчеркнуть актуальность новых методов Meta, напомнив читателю, что результаты AlphaFold 2 критически зависят от наличия большого количества последовательностей, с помощью которых можно построить множественное выравнивание последовательностей. Таким образом, AlphaFold 2 имеет ограниченную полезность для так называемых «сиротских» белков, то есть тех белков, для которых невозможно получить выравнивание, поскольку в базах данных доступно не так много последовательностей. Не используя выравнивания, методы, основанные на языковых моделях, могли бы в принципе моделировать белки-сироты лучше, чем AlphaFold и подобные методы, таким образом, предполагая потенциальное улучшение досягаемости современных предсказаний структуры белка - спойлер: новые методы помогают немного, но не кардинально.

Кроме того, не требуя компиляции выравнивания, методы, использующие языковые модели, работают намного быстрее, чем обычные методы, такие как AlphaFold, что позволяет обрабатывать большее количество последовательностей в единицу времени — что Meta действительно использовала для обработки более 600 миллионов последовательностей всего за две недели, как я опишу позже.

Как модели белкового языка Meta работают для предсказания белковых структур

Это увлекательно. Чтобы разработать свои модели белкового языка, кульминацией которых стали ESM-2 и ESMFold, Meta экспериментировала с обучением нейронных сетей не для прямого предсказания белковых структур из последовательности (как в AlphaFold и других методах), а скорее для предсказания аминокислот, замаскированных в белковых последовательностях. . Это очень похоже на то, как обучаются языковые модели, такие как GPT-3: алгоритм маскирует токены, а процедура обучения направлена ​​на их предсказание. Почему-то ESM-2/ESMFold — это «просто еще одна» огромная языковая модель, но суперспециализированная для белков.

Как и любая другая нейронная сеть, эти белковые языковые сети содержат большое количество весов (от миллионов до миллиардов), которые точно настраиваются во время обучения, в данном случае для прогнозирования замаскированных остатков. Мета обнаружил, что когда сеть хорошо обучена предсказывать замаскированные аминокислоты в миллионах природных белковых последовательностей, тогда ее внутренние веса фактически захватывают или «понимают» структуру белка. Видите, почему я сказал, что это увлекательно?

Позвольте мне объяснить это снова другими словами. Обучение ESM-2 происходит только на последовательностях, как на входе, так и на выходе. Информация о моделируемой структуре развивается внутри сети, поскольку ее веса описывают структурные паттерны, соединяющие входные (замаскированные) последовательности с выходными (полными) последовательностями. Структура белка предсказывается «на стороне» по паттернам, активируемым внутри сети при обработке входной последовательности.

Каким-то образом имеет смысл то, что для предсказания последовательностей сеть должна была изучить эволюционные закономерности в обучающих последовательностях. Хорошо известно, что эти паттерны напрямую связаны с контактами между парами остатков в белковых структурах — концепция, хорошо задокументированная в CASP и структурной биоинформатике уже почти десятилетие, которая оказала влияние на предсказание структуры белка уже в CASP12 задолго до появления DeepMind. игра с AlphaFold 1.

Немного углубившись в детали, Meta уже знала из своих предыдущих работ, что модели-трансформеры, обученные моделировать замаскированные белковые последовательности, развивают паттерны внимания, соответствующие карте межостаточного контакта белка. Что Мета сделала, чтобы научить ESM-2, как на самом деле получить структуру из своих внутренних знаний (таким образом, создав ESMFold), так это спроецировать паттерны внимания на известные карты контактов остатков-остатков, полученные из экспериментальных структур входных последовательностей. Таким образом, когда ESMFold обрабатывает входную последовательность, он немедленно активирует серию паттернов внимания, которые затем преобразуются в паттерны контакта, которые затем передаются в структурную сеть, которая в конечном итоге вычисляет фактический набор координат, соответствующих предсказанной структуре.

Как Мета пришла на ESM-2 и ESMFold

Работа Меты с белками и языковыми моделями началась с того, что они представили в своей статье 2019 года в PNAS: доказательства того, что языковые модели, обученные последовательностям белков, внутренне изучают свойства белков, связанные со структурой и функцией. Затем в 2020 году Meta выпустила ESM1b, модель белкового языка, которая уже помогла ученым сделать некоторые конкретные прогнозы и открытия о структуре и функциях белков непосредственно из белковых последовательностей. Затем Meta расширила это, чтобы создать ESM-2, который с параметрами 15B является самой большой языковой моделью белков на сегодняшний день и создает основу для современного инструмента Meta для предсказания структуры белка и дизайна белка. При разработке ESM-2 и ESMFold Мета заметил, что по мере увеличения модели с 8 миллионов до 15 миллиардов параметров предсказания последовательности становятся лучше, а информация о структуре белка, извлекаемая из паттернов внимания сети, становится богаче и точнее, что позволяет эффективно для моделирования белковых структур путем сопоставления весов с известными структурами.

Кроме того, Мета обнаружил, что предсказание структуры белка с помощью ESM-2 происходит в 60 раз быстрее, чем с AlphaFold 2, достигая очень похожей точности (всего на несколько пунктов ниже для некоторых целей) без необходимости какого-либо выравнивания и немного лучших результатов, чем AlphaFold. 2 для сиротских белков, хотя и не так драматично, как ожидалось для языковых моделей.

Несколько способов запуска ESMFold для предсказания структуры

В принципе, Meta ESM-2 можно использовать для сворачивания белков, их дизайна и других задач, таких как предсказание влияния мутаций на белки. Основным приложением, выпущенным Meta на сегодняшний день, является ESMFold, инструмент для сворачивания белков из их последовательностей и атлас предварительно вычисленных моделей (описанный в следующем разделе).

Учитывая последовательность, ESMFold выводит модели и показатели достоверности точно так же, как AlphaFold 2, то есть 1D-график pLDDT, который оценивает точность, с которой моделируется каждый остаток, и 2D-график PAE, который оценивает, насколько хорошо каждый остаток моделируется по сравнению со всеми остальными.

Meta сделала ESMFold доступным несколькими способами. Самый простой, прямо с их веб-сайта, позволяет отправить последовательность для моделирования с помощью функции «Свернуть последовательность» на этой странице:



Веб-сервис работает очень быстро; например, я получил эту структуру менее чем за 4 секунды:

Обратите внимание, что структура модели окрашена, чтобы показать точность каждого остатка, т.е. по pLDDT. Синий означает высокую точность, и точность падает по мере того, как вы следуете за цветами радуги, пока красный цвет не будет считаться неправильным.

Для более подробного прогнозирования структуры я рекомендую вам использовать блокнот Google Colab, составленный sokrypton и его коллегами, который обеспечивает полный вывод, включая столь необходимые показатели достоверности модели в 1D (pLDDT) и 2D (PAE). (хотя это занимает немного больше времени):

На панели в нижней части этого рисунка зеленым цветом показана фактическая структура, доступная в PDB для этого белка, по сравнению с моделью ESMfold, окрашенной pLDDT (синий цвет означает высокий уровень pLDDT, т. е. высокую достоверность, а красный цвет — низкий уровень pLDDT, т. е. неопределенность). Вы можете видеть, что только две несоответствующие части действительно предсказываются ESMfold с низкой достоверностью (одна немного не соответствует розовому цвету, а очень плохая - красному).

Прямой вызов ESMFold через API

Когда вы используете службу Meta, которую я впервые представил выше, вы на самом деле получаете доступ к очень простой веб-странице, которая отправляет последовательность ваших запросов в API, созданный Meta для запуска программы.

Это ясно из формата URL-адреса, который вызывается при отправке прогноза:

https://esmatlas.com/resources/fold/result?fasta_header=Example&sequence=MSGMKKLYEYTVTTLDEFLEKLKEFILNTSKDKIYKLTITNPKLIKDIGKAIAKAAEIADVDPKEIEEMIKAVEENELTKLVITIEQTDDKYVIKVELENEDGLVHSFEIYFKNKEEMEKFLELLEKLISKLSGSGGGSGGGSGGGGSSGGGGGSGGGGSGGGGMSGMKKLYEYTVTTLDEFLEKLKEFILNTSKDKIYKLTITNPKLIKDIGKAIAKAAEIADVDPKEIEEMIKAVEENELTKLVITIEQTDDKYVIKVELENEDGLVHSFEIYFKNKEEMEKFLELLEKLISKL

Это означает, что вы в принципе можете сделать такой простой вызов API в любой разрабатываемой вами программе или веб-приложении, а затем обработать полученные модели прямо внутри вашей собственной программы!

База данных моделей для более чем 600 миллионов белков.

Учитывая, как быстро работает ESMFold, Meta может сделать что-то беспрецедентное в биологии: они смоделировали 617 миллионов белков, последовательности которых были получены в ходе метагеномных проектов, всего за 2 недели! Это недостижимо даже с AlphaFold 2, который хорош в моделировании, но гораздо медленнее, чем новая система Meta.

Метагеномные проекты предполагают секвенирование ДНК большого количества организмов. Но весь этот огромный объем информации не может быть полностью использован без белковых структур или, по крайней мере, надежных моделей, отсюда актуальность новой базы данных моделей Meta, называемой метагеномным атласом ESM, в дополнение к базе данных из 200 миллионов структур, выпущенной DeepMind вместе с Европейский институт биоинформатики.

Атлас моделей Meta можно просматривать в графическом виде, как на главной фотографии этой статьи, что выглядит эстетически привлекательно, но на самом деле не имеет никакой пользы. Истинная сила Атласа заключается в сочетании с его поисковыми системами: вы можете искать в Атласе по MGnifyID (MGnify — это база данных белковых последовательностей из наборов метагеномных данных), по аминокислотной последовательности (пытаясь найти модели, уже рассчитанные для этой или подобных последовательностей). ), а также по структуре белка (для поиска структурно-подобных моделей, депонированных в базе данных).

Заключительные слова

Когда я думал, что лучшее предсказание структуры белка произошло (с AlphaFold 2), Meta представила этот захватывающий подход, инструмент и базу данных. С только что опубликованными научными тезисами для CASP15 и без новостей от DeepMind, но с новостями от Meta, интересно, какие сюрпризы нас могут ожидать, если таковые имеются. С одной стороны, предварительные оценки, кажется, не показывают больших улучшений по сравнению с CASP14, но, с другой стороны, модели AlphaFold 2 уже настолько хороши, что мало места для улучшений, и, как я уже говорил, CASP15 движется к новым целям. Мета-ESMFold может хотя бы немного повлиять на предсказание орфанных белков, но таких белков обычно не много в CASP. Скоро, всего через 3 недели после публикации результатов CASP15, мы узнаем, могут ли языковые модели (не только Meta, но и другие, разрабатываемые учеными) еще больше способствовать революции.

Рекомендации

Препринт основной сети ESM-2, ESMFold и атласа ESM:



Основной сайт, на котором доступны инструменты ЭСМ-2 и Атлас:





Более ранние связанные работы о том, как языковые модели помогают предсказывать эффекты мутаций в белках и создавать белки:





www.lucianoabriata.com Пишу и снимаю обо всем, что лежит в сфере моих широких интересов: природа, наука, технологии, программирование и т. д. Стать участником Medium , чтобы получить доступ ко всем его историям (партнерские ссылки платформы, за которые я получаю небольшой доход бесплатно для вас) и подписаться, чтобы получать мои новые истории по электронной почте. Чтобы проконсультироваться по поводу небольших вакансий, посетите мою страницу услуг здесь. Вы можете связаться со мной здесь.