Машины узнают, из чего состоит белок

Подход машинного обучения, который дает интерпретируемые результаты, обеспечивает подробное представление о белках только на основе данных о последовательности.

Почти каждый процесс, поддерживающий жизнь клетки, зависит от активности нескольких белков. Все белки состоят из цепочек более мелких молекул, называемых аминокислотами, а конкретная последовательность аминокислот определяет общую форму белка, которая, в свою очередь, определяет его возможности. Тем не менее отношения между структурой белка и его функцией сложны, и остается неясным, как последовательность аминокислот в белке на самом деле определяет его особенности и свойства.

Машинное обучение — это вычислительный подход, который часто применяется для понимания сложных вопросов биологии. Он использует компьютерные алгоритмы для выявления статистических закономерностей в больших объемах данных, и после «обучения» данных алгоритмы могут затем предоставлять новые идеи, делать прогнозы или даже генерировать новые данные.

Тубиана и др. теперь использовали относительно простую форму машинного обучения для изучения аминокислотных последовательностей 20 различных семейств белков. Во-первых, системы алгоритмов, известные как Restricted Boltzmann Machines, RBM для краткости, были обучены считывать некоторые данные аминокислотной последовательности, кодирующие аналогичные белки. После «обучения» данных RBM мог затем вывести статистические закономерности, которые были общими для последовательностей. Тубиана и др. увидел, что многие из этих предполагаемых паттернов могут быть осмысленно интерпретированы и связаны со свойствами белков. Например, некоторые из них были связаны с известными поворотами и петлями, обычно встречающимися в белках; другие могут быть связаны с конкретными видами деятельности. Этот уровень интерпретируемости несколько расходится с результатами других распространенных методов, используемых в машинном обучении, которые ведут себя скорее как «черный ящик».

Используя свой RBM, Tubiana et al. затем предложили, как создавать новые белки, которые могут оказаться интересными. В будущем аналогичные методы можно будет применять в вычислительной биологии для понимания сложных данных.

Первоначально опубликовано на https://elifesciences.org/digests/39397.