Секвенирование рецепторов Т-клеток с использованием нейронных сетей

Помощь в искоренении болезней и вирусов с помощью Т-клеток.

Величайшая угроза человечеству…

Какая самая большая угроза человечеству? Кто-то может сказать, что это ядерные осадки. Другие могут сказать, что это угроза столкновения с нашей планетой большого астероида. На самом деле, большинство людей считает, что самая большая угроза человечеству - это некая невообразимая вещь, которая не во всем этом мире, которая уничтожит людей одним махом. Что ж ... величайшая угроза человечеству прямо у нас под носом.

Самая большая угроза для человечества - это пандемия, которая может разрушить весь мир, к чему мы не готовы. Не верите мне? Достаточно взглянуть на то, что происходило в прошлом исторически. Испанский грипп поразил четверть населения мира и унес жизни более 100 миллионов человек. Оспа унесла жизни около 500 миллионов человек. Болезни - основная причина смерти. Даже миллиардер-филантроп Билл Гейтс считает, что следующим худшим событием, которое случится с человечеством, будет вирус.

«Если что-то убьет более 10 миллионов человек в ближайшие несколько десятилетий, это, скорее всего, будет очень заразным вирусом, а не войной - не ракетами, а микробами»

Большинство этих вирусов атакуют нашу иммунную систему и терроризируют наши тела изнутри. По сути, мы создавали вакцины как основной метод нашей атаки для борьбы с этими вирусами. Эти вакцины работают так, что мы вводим белки вируса в иммунную систему человека, чтобы дать иммунной системе понять, как бороться с этими вирусами.

Дело в том, что создание вакцины стоит дорого и требует много времени. Вместо того, чтобы подвергать вирус в контролируемом веществе нашей иммунной системе, что, если бы мы могли исследовать нашу иммунную систему, чтобы бороться с этими заболеваниями, без использования вакцины?

Добро пожаловать в T-Cells

Т-клетки - естественная защита иммунной системы от болезней. Это клетки иммунной системы, которые идентифицируют опасные клетки (например, рак или вирусы) и дезактивируют эти клетки посредством апоптоза. Вот как они работают:

Каждая больная клетка имеет на своей поверхности антигены, которые культивируются из клетки, захватывающей другие клетки и наносящей ущерб другим клеткам. Т-клетки имеют рецепторы (TCR) на поверхности своей клетки, которые могут связываться с определенными антигенами, что позволяет Т-клетке убивать больную клетку. Ваше тело все время делает это с болезнями, однако иногда инородные болезни приспосабливаются к естественным TCR вашего тела, что делает его так, чтобы они не могли связываться с больными антигенами. Это становится проблематичным, поскольку больная клетка может распространиться по вашему телу и по существу убить вас. Терапия CAR Т-клетками решает эту проблему, создавая специфические TCR для борьбы с этими антигенами.

Автомобильная Т-клеточная терапия

В CAR Т-клеточной терапии Т-клетки пациента извлекаются из образца крови, и генетическая информация вводится в ядро Т-клетки, чтобы дать клетке команду производить определенные Т-клеточные рецепторы. Эти новые CAR Т-клетки затем возвращаются в организм для связывания с антигенами и уничтожения больных клеток.

При рассмотрении TCR новой Т-клетки необходимо сконструировать несколько основных частей рецептора, чтобы убедиться, что антиген может связываться с TCR. Основные части включают:

Антиген:, также называемый пептидом, эта белковая последовательность соединяет TCR с MHC (или соединитель с клеткой), обеспечивая возможность апоптоза.

V-сегмент: V-сегмент или вариабельный сегмент является частью рецептора Т-клетки и является наиболее физически внешней частью. Есть много разных вариантов v-сегмента.

J-сегмент: J-сегмент или соединительный сегмент - это то, что соединяет v-сегмент с остальной частью TCR. Есть много разных вариантов j-сегмента.

CDR3: Третья область Т-клетки, определяющая комплементарность, также важна при борьбе с болезнями. Это в виде белковой последовательности.

Эпитоп:. Эпитоп - это то, что соединяет антиген с антителом или остальной частью клетки. Он представлен в виде последовательности белков.

Поиск частей рецептора Т-клеток называется секвенированием рецепторов Т-клеток или секвенированием TCR. В настоящее время для поиска различных частей TCR требуется множество исследований и тестов. Это может быть дорогостоящим и своевременным, но не идеальным при лечении нового заболевания. Именно здесь терапия CAR Т-клетками становится неэффективной при новых заболеваниях. Секвенирование рецепторов Т-клеток - сложный процесс, который уравнивает многие переменные, и который трудно выполнить в настоящее время. Я представляю метод глубокого обучения для секвенирования TCR с использованием различных методов глубокого обучения.

Секвенирование Т-клеточных рецепторов с помощью машинного обучения

Учитывая последовательность эпитопного белка антигена, можем ли мы предсказать последовательность V-сегмента, J-сегмента и белка CDR3 TCR, который будет связываться с антигеном? Это фундаментальный вопрос, на который я пытался ответить с помощью машинного обучения. Чтобы упростить задачу, я разделил проблему на три достижимые цели. Первая цель - создать модель для прогнозирования V-сегмента, одну модель для прогнозирования J-сегмента и одну модель для прогнозирования последовательности CDR3.

Я использовал базу данных VDJdb, которая содержит информацию об эпитопах и соответствующих им частях Т-клеток, которые могут вызвать апоптоз. Он содержит более 75000 точек данных, на которых была обучена модель. Вы можете найти базу данных здесь.

Модель глубокого обучения для V-сегмента и J-сегмента

Методы прогнозирования v-сегмента и j-сегмента очень похожи, потому что они представляют собой лишь несколько классов, которыми могут быть сегменты, и модель может быть настроена для прогнозирования класса, которым является сегмент. Это проблема многоклассовой классификации.

Представление входных данных

Как уже упоминалось, входными данными нейронных сетей являются белковые последовательности эпитопа антигена. Однако последовательность белка эпитопа представлена буквами нефиксированной длины. Это проблематично, поскольку нейронные сети работают только с числовыми значениями во входных данных постоянного размера.

Примеры последовательностей белков эпитопа: LLWNGPMAV (вирус желтой лихорадки), CPSQEPMSIYVY (цитомегаловирус), CTPYDINQM (вирус иммунодефицита обезьян)

К счастью, присвоение каждой буквы идентификатору упрощает эту задачу. Мы можем сопоставить каждую букву в белковой последовательности с числом. Например, буква «A» становится 1, буква «B» становится 2 и так далее.

Таким образом, последовательность вируса желтой лихорадки становится:

LLWNGPMAV → 12 12 23 14 7 16 13 1 22

Эта новая кодируемая последовательность чисел имеет длину 9. Однако некоторые последовательности будут иметь длину 8, 10, 11 или до 20 белков. Вход для нейронной сети требует ввода фиксированного размера, поэтому для этого мы можем дополнить каждую последовательность до максимальной длины, равной 20, с помощью нулей. Итак, для нашей кодируемой в настоящее время белковой последовательности вируса желтой лихорадки она становится:

12 12 23 14 7 16 13 1 22 → 12 12 23 14 7 16 13 1 22 0 0 0 0 0 0 0 0 0 0 0

Эти входные данные передаются в нашу нейронную сеть в виде массивов. Итак, с обработанным вводом, как нейронная сеть решает, какой сегмент подходит для последовательности?

Архитектура модели

Нейронная сеть - это просто математическая функция, которая принимает входной x и производит выходной y. У него есть веса или изученные параметры, которые изменяют x, чтобы получить y. В нейронных сетях есть разные методологии, которые по-разному используют параметры. Эти параметры оптимизированы для получения наилучшего возможного результата. Это делается путем вычисления функции потерь, которая показывает, насколько хороша модель. Чем меньше потери, тем лучше модель. Мы можем использовать оптимизатор (которые являются функциями исчисления), чтобы оптимизировать потери и уменьшить их. Этот процесс называется машинное обучение и обучение модели.

Модель имеет более 30 миллионов параметров, которые можно оптимизировать. Он имеет стандартные плотные слои, которые выполняют самые основные операции нейронной сети на входе, но при этом очень эффективны.

Выходные данные

Последний плотный слой нейронной сети содержит 126 нейтронов, которые представляют 126 классов, которыми может быть V-сегмент Т-клетки. Выходные данные представлены в виде горячего вектора, что означает, что каждый нейрон на выходе равен 0, за исключением одного из нейронов, который равен 1. Положение одного нейрона, имеющее значение 1, определяет, к какому классу относится V-сегмент.

Для модели J-сегмента было 68 нейронов, которые представляют 68 классов, которыми может быть J-сегмент. Это та же модель, но с другим количеством классов в последнем плотном слое.

Так, например, если мы прогнозировали класс V-сегмента, если выход модели будет 1 0 0 0…. это означает, что V-сегмент будет 1-м классом или переменным сегментом TRBV6–8.

Обучение / Результаты

После обучения обеих моделей были достигнуты аналогичные результаты. Потери снизились до 3 для всего набора данных, но потеря валидации была намного хуже. Модель с трудом делала обобщения на новых данных, но теоретически она работает. Это связано с тем, что многие классы будут работать с определенным эпитопом, поэтому потеря практичности намного ниже.

После обучения в течение 30 эпох каждая модель неплохо работает на новых невидимых данных. Я могу предсказать одно из правильных занятий в 80% случаев.

Последовательность 2 для последовательности белка CDR3

Поскольку часть CDR3 Т-клетки представляет собой последовательность белка нефиксированной длины, мультиклассовый подход не работает. Вместо этого необходим новый подход, который учитывает эпитоп и дает результат динамической длины. Для этого можно использовать модель «Последовательность 2». Он принимает последовательность (последовательность белка эпитопа) и производит другую последовательность (последовательность белка cdr3). Он включает модель кодировщика-декодера.