Никогда не было таких захватывающих времен для белковой биотехнологии благодаря этим методам и инструментам, основанным на искусственном интеллекте.

Дизайн и инженерия белков являются важными задачами молекулярной биологии с широким спектром приложений в различных областях, включая медицину, биотехнологию и материаловедение. Ученые уже несколько десятилетий изучают различные подходы к разработке новых белков и инженерии существующих для тонкой настройки их свойств. В то время как подходы, основанные на физике, имели некоторый успех в поиске аминокислотных последовательностей, которые складываются в заданную структуру белка, недавние разработки в области методов глубокого обучения показали гораздо более высокие показатели успеха и универсальности. В этой статье я расскажу о четырех известных инструментах машинного обучения (ML) для дизайна и инженерии белков и их значении для продвижения в этой области.

Помимо того влияния, которое эти инструменты окажут непосредственно на химические и биологические науки, методы, которые они внедряют, и даже сами проекты открывают захватывающие возможности для специалистов по данным, специалистов по машинному обучению и исследователей ИИ, чтобы придумывать новые идеи и способы сотрудничества с химией и наукой. ученые-биологи, которые могут навсегда применить информатику. Действительно, инструменты, о которых я расскажу ниже, демонстрируют возможности применения различных типов алгоритмов глубокого обучения для решения особенно сложных задач в области биотехнологии. Таким образом, используя эти инструменты, профессионалы в области науки о данных, машинного обучения и искусственного интеллекта также могут внести свой вклад в достижения в области медицины, биотехнологии и материаловедения, наблюдая прямое влияние своей собственной области знаний даже за ее пределами!

Вкратце, я представлю инструменты под названием ProteinMPNN, ESM2-InverseFold, RoseTTaFold Diffusion и MASIF-Seed в порядке их выпуска. Важно отметить, что все эти модели стали известны после того, как Deepmind ворвалась в область структурной биологии со своей моделью AlphaFold:



БелокMPNN

ProteinMPNN, разработанный лабораторией Бейкера, является первым в мире инструментом машинного обучения для дизайна белков, который был опубликован с экспериментально протестированными разработанными белками.

Эта модель основана на нейронной сети кодер-декодер и является первым таким инструментом, который, как было показано, генерирует белковые последовательности, которые экспериментально проверены на правильность сворачивания. Две статьи: «Надежный дизайн белковых последовательностей на основе глубокого обучения с использованием ProteinMPNN» и «Галлюцинирующие сборки симметричных белков», опубликованные в журнале Science в конце 2022 г., демонстрируют методологию (бывшая статья) и применимость инструмента для различные проблемы дизайна белков (позже статья).

Я посвятил один конкретный пост в блоге ProteinMPNN, и в любом случае этот пост уже вроде как «старый» (несмотря на то, что он был опубликован менее года назад, демонстрируя, как быстро развивается эта область!). Поэтому я не буду подробно рассказывать об этом здесь, и вы можете ознакомиться с моей предыдущей статьей:



ESM-обратная фальцовка

Разработанный Meta, ESM2-InverseFold основан на модели белкового языка ESMFold, но спроектирован для создания белковых последовательностей из структур, а не для предсказания структур из последовательностей.

Было обнаружено, что ESMFold производит очень разнообразные белковые последовательности, находящиеся далеко за пределами известного множества природных последовательностей. В препринте «Языковые модели обобщаются за пределами природных белков» описывается его основное функционирование и представлены несколько примеров успешных разработок.

Чтобы узнать больше о ESMFold, ознакомьтесь с моим предыдущим постом:



А вот препринт разработанного на его основе инструмента для проектирования белков «ESM-InverseFold»:



ESM-InverseFold — это инструмент для проектирования белков, который использует машинное обучение для создания белков de novo, которые никогда не встречались в природе. Инструмент основан на языковых моделях, которые были обучены на миллионах разнообразных природных белков в ходе эволюции с использованием моделирования замаскированного языка. Эти модели генерируют мотивы, связывающие последовательность с дизайном структуры, и могут применять их в новых последовательностях и структурных контекстах. ESM-InverseFold предлагает две задачи генеративного проектирования белков: проектирование фиксированной основы и свободное создание. Дизайн фиксированной основы включает в себя создание последовательностей белков путем взятия низкотемпературных образцов из условного распределения, заданного языковой моделью, с помощью цепи Маркова Монте-Карло с имитацией отжига. Свободная генерация полностью снимает ограничение на структуру и генерирует новые белки путем выборки из совместного распределения последовательности и структуры, заданной языковой моделью. ESM-InverseFold продемонстрировал высокие показатели успешности экспериментов, обеспечив получение растворимых и мономерных частиц методом эксклюзионной хроматографии в 67% оцененных белков. Как показывают авторы, языковая модель, используемая в инструменте, способна получить доступ к пространству дизайна за пределами природных белков, создавая новые решения, основанные на глубоких шаблонах дизайна белков, включая структурные мотивы, обнаруженные в природных белках.

RoseTTAFold Diffusion

RoseTTAFold Diffusion, основанный на моделях диффузии, является новейшим инструментом лаборатории Baker, также предварительно напечатанным в bioRxiv.



Согласно блогу Baker’s lab, в настоящее время это самый эффективный метод из пакета Rosetta для дизайна белков:



RoseTTaFold Diffusion — это генеративная модель, основанная на вероятностной модели диффузии с шумоподавлением, которая использует глубокое обучение для создания разнообразных, сложных и функциональных белков из простых молекулярных спецификаций. Он точно настраивает сеть предсказания структуры RoseTTaFold для задач шумоподавления структуры белка, чтобы получить генеративную модель белковых остовов. RoseTTaFold Diffusion генерирует белковые структуры, моделируя процесс зашумления для случайного количества шагов на структурах, отобранных из банка данных белков во время обучения. Метод генерирует новые структуры белка путем преобразования зашумленных координат из предыдущего шага в предсказанные структуры, обусловленные входными данными модели, которые могут включать в себя частичную последовательность, информацию о сгибе или фиксированные координаты функционального мотива. Метод был обучен с использованием двух разных стратегий: 1) способом, аналогичным «каноническим» моделям диффузии, с предсказаниями на каждом временном шаге, независимыми от предсказаний на предыдущих временных шагах, и 2) с самообусловливанием, когда модель может обусловливать предыдущие предсказания. между временными интервалами. RoseTTaFold Diffusion может генерировать белковые структуры либо без дополнительных входных данных, либо путем кондиционирования различных входных данных, и он может генерировать разнообразные белковые структуры с небольшим общим структурным сходством с любыми известными белковыми структурами. Этот метод превосходит другие методы глубокого обучения для создания структуры белка и, как было показано, обладает самыми современными характеристиками при решении широкого круга задач проектирования, включая дизайн белковых мономеров, дизайн белковых связывателей, дизайн симметричных олигомеров, каркасы активных сайтов ферментов. , и каркасы с симметричными мотивами для дизайна терапевтических и металлосвязывающих белков.

MaSIF-seed

MaSIF-seed, совместная работа лаборатории Майкла Бронштейна и лаборатории Correia по дизайну белков в моем учреждении (Школа повышения квалификации EPFL), опубликованная в Nature в этом месяце специализируется на разработке белковых взаимодействий с помощью изученных белковых отпечатков на поверхности:



Этот инструмент продемонстрировал впечатляющую эффективность при разработке белковых мономеров и олигомеров, включая белки, связывающие мишени, и складки, не встречающиеся в природе. Он вырос из предыдущей работы собственных групп, Masif, инструмента машинного обучения, который предсказывает взаимодействия по поверхностным особенностям.

Основанный на поверхности подход по сравнению с другими методами, Masif-seed фокусируется на поверхностных свойствах белков и взаимодействиях между участками поверхности. Его нейронная сеть выдает векторные дескрипторы отпечатков пальцев, которые комплементарны между фрагментами взаимодействующих пар белков и отличаются между невзаимодействующими парами. Совпадающие участки поверхности выравниваются по целевому участку и оцениваются второй нейронной сетью, которая выводит оценку после выравнивания интерфейса для дальнейшего улучшения характеристик распознавания дескрипторов поверхности. MaSIF-seed продемонстрировал превосходную эффективность в различении настоящих связующих от ложных на основе богатых характеристик поверхности по сравнению с другими инструментами. Кроме того, он предположительно быстрее и точнее, чем другие методы.

В документе, представляющем метод, описывается несколько примеров, когда этот инструмент использовался для разработки белковых связывателей de novo для воздействия на сложные и связанные с заболеванием белковые мишени. Полный конвейер проектирования белков с использованием MaSIF-seed включает в себя несколько этапов: от определения целевых участков на белке с высокой склонностью к взаимодействию с белками, связывающими белки, до поиска в подмножестве базы данных поверхностных отпечатков пальцев, полученных из фрагментов, для поиска связывающих зародышей, которые могли бы нацелены на выбранный сайт, а затем трансплантируют их на белковые каркасы, совместимые со способами связывания семени, с использованием специализированных протоколов Rosetta. Наконец, интерфейс связующего оптимизируется, и в практических приложениях проекты проверяются экспериментально для точной настройки окончательных последовательностей с помощью библиотек мутагенеза.

Разработка белковых последовательностей, которые складываются и работают так, как нужно ученым

Во всех четырех инструментах входными данными для модели является структура скелета, возможно, с определенными ограничениями аминокислотной идентичности, на основе которой модели создают белковую последовательность, которая, как ожидается, будет сворачиваться, как предполагалось. Хотя эти модели могут генерировать последовательности взаимодействующих белков, они изначально не могут учитывать небелковые молекулы в процессе проектирования. Это ограничение затрудняет их применение в конструкциях, включающих связывание с небелковыми молекулами, если только пользователь специально не фиксирует определенные остатки вручную на основе желаемой функции. Хотя такая стратегия несколько неэффективна, поскольку требует знаний об интересующей системе, она уже сработала при разработке фермента в лаборатории Бейкера ранее в 2023 году:



Как и в этом примере, разработка этих инструментов открыла захватывающие возможности для разработки новых белков и инженерии существующих. Эти инструменты особенно полезны в развитии терапии, материаловедения и биотехнологии, где свойства белков могут быть точно настроены в соответствии с конкретными потребностями. Способность генерировать белковые последовательности, которые экспериментально подтверждены, имеют огромное значение для разработки новых методов лечения и терапии, особенно для сложных заболеваний. См., например, этот особый вид вакциноподобного препарата, состоящий из смеси белковых эпитопов, разработанных на компьютере — на данный момент с более традиционными физическими инструментами.

Кроме того, эти инструменты могут значительно сократить время и ресурсы, необходимые для проектирования и инженерии белков, что делает эту область исследований более доступной. И их намного проще развертывать и запускать, что опять же помогает демократизировать их использование. Действительно, посмотрите, как легко вы можете адаптировать обычный ESMFold для анализа реалистичных белковых проектов, которые могут быть получены, например, из ProteinMPNN, работающего на HuggingFace, прямо в вашем веб-браузере:



В заключение, мы можем без колебаний заявить, что после ажиотажа вокруг предсказания структуры белка с помощью AlphaFold мы сейчас находимся на волне ажиотажа в отношении дизайна белков, и новые методы появляются в среднем каждый месяц или около того, и я представил их здесь. четыре, которые я считаю наиболее актуальными на данный момент, главным образом потому, что все они проверены экспериментально.

Эти новые модели для дизайна белков показывают впечатляющие результаты и, без сомнения, станут неотъемлемой частью лабораторий и компаний, занимающихся биотехнологией белков, в ближайшем будущем. Хотя ограничения все еще существуют, потенциальное применение этих инструментов огромно, и ожидается, что в ближайшие годы они будут иметь большое значение для медицины, биотехнологии и материаловедения.

Статьи по Теме

Для обзора того, как компьютерное моделирование, симуляции и искусственный интеллект влияют на белковую инженерию, ознакомьтесь с этим:



В этой другой статье я исследую, почему проблема дизайна/инженерии белков настолько сложна, даже когда речь идет об одном остатке:



Вам также может быть интересна моя статья о балансе качества и количества в машинном обучении для науки, где я специально затрагиваю моменты, связанные с моделями машинного обучения для дизайна белков:



«ML-Все? Баланс количества и качества в методах машинного обучения для науки
Необходимость в надлежащих проверках и хороших наборах данных, объективных и сбалансированных, а также в том, чтобы прогнозы были полезны в реалистичных…towardsdatascience.com»



www.lucianoabriata.com Пишу и снимаю обо всем, что лежит в сфере моих широких интересов: природа, наука, технологии, программирование и т. д. Стать участником Medium , чтобы получить доступ ко всем его историям (партнерские ссылки платформы, за которые я получаю небольшой доход бесплатно для вас) и подписаться, чтобы получать мои новые истории по электронной почте. Чтобы проконсультироваться по поводу небольших вакансий, посетите мою страницу услуг здесь. Вы можете связаться со мной здесь.