Помощь в искоренении болезней и вирусов с помощью Т-клеток.

Величайшая угроза человечеству…

Какая самая большая угроза человечеству? Кто-то может сказать, что это ядерные осадки. Другие могут сказать, что это угроза столкновения с нашей планетой большого астероида. На самом деле, большинство людей считает, что самая большая угроза человечеству - это некая невообразимая вещь, которая не во всем этом мире, которая уничтожит людей одним махом. Что ж ... величайшая угроза человечеству прямо у нас под носом.

Самая большая угроза для человечества - это пандемия, которая может разрушить весь мир, к чему мы не готовы. Не верите мне? Достаточно взглянуть на то, что происходило в прошлом исторически. Испанский грипп поразил четверть населения мира и унес жизни более 100 миллионов человек. Оспа унесла жизни около 500 миллионов человек. Болезни - основная причина смерти. Даже миллиардер-филантроп Билл Гейтс считает, что следующим худшим событием, которое случится с человечеством, будет вирус.

«Если что-то убьет более 10 миллионов человек в ближайшие несколько десятилетий, это, скорее всего, будет очень заразным вирусом, а не войной - не ракетами, а микробами»

Большинство этих вирусов атакуют нашу иммунную систему и терроризируют наши тела изнутри. По сути, мы создавали вакцины как основной метод нашей атаки для борьбы с этими вирусами. Эти вакцины работают так, что мы вводим белки вируса в иммунную систему человека, чтобы дать иммунной системе понять, как бороться с этими вирусами.

Дело в том, что создание вакцины стоит дорого и требует много времени. Вместо того, чтобы подвергать вирус в контролируемом веществе нашей иммунной системе, что, если бы мы могли исследовать нашу иммунную систему, чтобы бороться с этими заболеваниями, без использования вакцины?

Добро пожаловать в T-Cells

Т-клетки - естественная защита иммунной системы от болезней. Это клетки иммунной системы, которые идентифицируют опасные клетки (например, рак или вирусы) и дезактивируют эти клетки посредством апоптоза. Вот как они работают:

Каждая больная клетка имеет на своей поверхности антигены, которые культивируются из клетки, захватывающей другие клетки и наносящей ущерб другим клеткам. Т-клетки имеют рецепторы (TCR) на поверхности своей клетки, которые могут связываться с определенными антигенами, что позволяет Т-клетке убивать больную клетку. Ваше тело все время делает это с болезнями, однако иногда инородные болезни приспосабливаются к естественным TCR вашего тела, что делает его так, чтобы они не могли связываться с больными антигенами. Это становится проблематичным, поскольку больная клетка может распространиться по вашему телу и по существу убить вас. Терапия CAR Т-клетками решает эту проблему, создавая специфические TCR для борьбы с этими антигенами.

Автомобильная Т-клеточная терапия

В CAR Т-клеточной терапии Т-клетки пациента извлекаются из образца крови, и генетическая информация вводится в ядро ​​Т-клетки, чтобы дать клетке команду производить определенные Т-клеточные рецепторы. Эти новые CAR Т-клетки затем возвращаются в организм для связывания с антигенами и уничтожения больных клеток.

При рассмотрении TCR новой Т-клетки необходимо сконструировать несколько основных частей рецептора, чтобы убедиться, что антиген может связываться с TCR. Основные части включают:

Антиген:, также называемый пептидом, эта белковая последовательность соединяет TCR с MHC (или соединитель с клеткой), обеспечивая возможность апоптоза.

V-сегмент: V-сегмент или вариабельный сегмент является частью рецептора Т-клетки и является наиболее физически внешней частью. Есть много разных вариантов v-сегмента.

J-сегмент: J-сегмент или соединительный сегмент - это то, что соединяет v-сегмент с остальной частью TCR. Есть много разных вариантов j-сегмента.

CDR3: Третья область Т-клетки, определяющая комплементарность, также важна при борьбе с болезнями. Это в виде белковой последовательности.

Эпитоп:. Эпитоп - это то, что соединяет антиген с антителом или остальной частью клетки. Он представлен в виде последовательности белков.

Поиск частей рецептора Т-клеток называется секвенированием рецепторов Т-клеток или секвенированием TCR. В настоящее время для поиска различных частей TCR требуется множество исследований и тестов. Это может быть дорогостоящим и своевременным, но не идеальным при лечении нового заболевания. Именно здесь терапия CAR Т-клетками становится неэффективной при новых заболеваниях. Секвенирование рецепторов Т-клеток - сложный процесс, который уравнивает многие переменные, и который трудно выполнить в настоящее время. Я представляю метод глубокого обучения для секвенирования TCR с использованием различных методов глубокого обучения.

Секвенирование Т-клеточных рецепторов с помощью машинного обучения

Учитывая последовательность эпитопного белка антигена, можем ли мы предсказать последовательность V-сегмента, J-сегмента и белка CDR3 TCR, который будет связываться с антигеном? Это фундаментальный вопрос, на который я пытался ответить с помощью машинного обучения. Чтобы упростить задачу, я разделил проблему на три достижимые цели. Первая цель - создать модель для прогнозирования V-сегмента, одну модель для прогнозирования J-сегмента и одну модель для прогнозирования последовательности CDR3.

Я использовал базу данных VDJdb, которая содержит информацию об эпитопах и соответствующих им частях Т-клеток, которые могут вызвать апоптоз. Он содержит более 75000 точек данных, на которых была обучена модель. Вы можете найти базу данных здесь.

Модель глубокого обучения для V-сегмента и J-сегмента

Методы прогнозирования v-сегмента и j-сегмента очень похожи, потому что они представляют собой лишь несколько классов, которыми могут быть сегменты, и модель может быть настроена для прогнозирования класса, которым является сегмент. Это проблема многоклассовой классификации.

Представление входных данных

Как уже упоминалось, входными данными нейронных сетей являются белковые последовательности эпитопа антигена. Однако последовательность белка эпитопа представлена ​​буквами нефиксированной длины. Это проблематично, поскольку нейронные сети работают только с числовыми значениями во входных данных постоянного размера.

Примеры последовательностей белков эпитопа: LLWNGPMAV (вирус желтой лихорадки), CPSQEPMSIYVY (цитомегаловирус), CTPYDINQM (вирус иммунодефицита обезьян)

К счастью, присвоение каждой буквы идентификатору упрощает эту задачу. Мы можем сопоставить каждую букву в белковой последовательности с числом. Например, буква «A» становится 1, буква «B» становится 2 и так далее.

Таким образом, последовательность вируса желтой лихорадки становится:

LLWNGPMAV → 12 12 23 14 7 16 13 1 22

Эта новая кодируемая последовательность чисел имеет длину 9. Однако некоторые последовательности будут иметь длину 8, 10, 11 или до 20 белков. Вход для нейронной сети требует ввода фиксированного размера, поэтому для этого мы можем дополнить каждую последовательность до максимальной длины, равной 20, с помощью нулей. Итак, для нашей кодируемой в настоящее время белковой последовательности вируса желтой лихорадки она становится:

12 12 23 14 7 16 13 1 22 → 12 12 23 14 7 16 13 1 22 0 0 0 0 0 0 0 0 0 0 0

Эти входные данные передаются в нашу нейронную сеть в виде массивов. Итак, с обработанным вводом, как нейронная сеть решает, какой сегмент подходит для последовательности?

Архитектура модели

Нейронная сеть - это просто математическая функция, которая принимает входной x и производит выходной y. У него есть веса или изученные параметры, которые изменяют x, чтобы получить y. В нейронных сетях есть разные методологии, которые по-разному используют параметры. Эти параметры оптимизированы для получения наилучшего возможного результата. Это делается путем вычисления функции потерь, которая показывает, насколько хороша модель. Чем меньше потери, тем лучше модель. Мы можем использовать оптимизатор (которые являются функциями исчисления), чтобы оптимизировать потери и уменьшить их. Этот процесс называется машинное обучение и обучение модели.

Модель имеет более 30 миллионов параметров, которые можно оптимизировать. Он имеет стандартные плотные слои, которые выполняют самые основные операции нейронной сети на входе, но при этом очень эффективны.

Выходные данные

Последний плотный слой нейронной сети содержит 126 нейтронов, которые представляют 126 классов, которыми может быть V-сегмент Т-клетки. Выходные данные представлены в виде горячего вектора, что означает, что каждый нейрон на выходе равен 0, за исключением одного из нейронов, который равен 1. Положение одного нейрона, имеющее значение 1, определяет, к какому классу относится V-сегмент.

Для модели J-сегмента было 68 нейронов, которые представляют 68 классов, которыми может быть J-сегмент. Это та же модель, но с другим количеством классов в последнем плотном слое.

Так, например, если мы прогнозировали класс V-сегмента, если выход модели будет 1 0 0 0…. это означает, что V-сегмент будет 1-м классом или переменным сегментом TRBV6–8.

Обучение / Результаты

После обучения обеих моделей были достигнуты аналогичные результаты. Потери снизились до 3 для всего набора данных, но потеря валидации была намного хуже. Модель с трудом делала обобщения на новых данных, но теоретически она работает. Это связано с тем, что многие классы будут работать с определенным эпитопом, поэтому потеря практичности намного ниже.

После обучения в течение 30 эпох каждая модель неплохо работает на новых невидимых данных. Я могу предсказать одно из правильных занятий в 80% случаев.

Последовательность 2 для последовательности белка CDR3

Поскольку часть CDR3 Т-клетки представляет собой последовательность белка нефиксированной длины, мультиклассовый подход не работает. Вместо этого необходим новый подход, который учитывает эпитоп и дает результат динамической длины. Для этого можно использовать модель «Последовательность 2». Он принимает последовательность (последовательность белка эпитопа) и производит другую последовательность (последовательность белка cdr3). Он включает модель кодировщика-декодера.

Представление входных данных

То, как мы представляем данные для входных данных этой модели, аналогично моделям V-сегмента и J-сегмента. Белки в последовательности отображаются на номер. «A» отображается в 1, «B» отображается в 2 и так далее. Однако исходные данные модели отличаются тем, что после кодирования белков в числа эти числа кодируются в один горячий вектор. Горячий вектор - это массив нулей с одним числом в массиве как 1. Позиция 1 в массиве представляет класс этого горячего вектора. Например, если число 1 закодировано в один-горячий вектор, первая позиция массива будет равна 1, а остальные числа будут равны 0. Поскольку есть символы, есть 26 классов в одном-горячем векторе. . Это позволяет упростить обработку информации через нейронную сеть.

Кроме того, в начале и в конце белковой последовательности будут начальный и конечный токены. Эти токены, по сути, представляют то, как они звучат, они указывают, когда последовательность начинается или когда последовательность заканчивается. Кроме того, желаемый результат также будет использоваться во время обучения явно в модели. Я знаю, используя вывод для ввода? Да, потому что это позволяет модели seq2seq стать точнее и лучше.

Архитектура модели

Встраивания. Сначала входные данные проходят через слой встраивания, который по существу преобразует их в новый вектор значений фиксированной длины. Это важно, так как нам приходилось дополнять наш ввод, чтобы он оставался постоянной длины, и этот процесс позволяет нам сделать заполненные области неважными. Он умножает ввод на некоторые изученные веса, чтобы создать новый вектор, который обучается в процессе обучения. Встраивания также позволяют обобщать похожие слова или последовательности в похожие числовые последовательности, что позволяет обобщать модель еще проще. Подобные слова ближе друг к другу.

Кодировщик. Кодировщик - это уровень LSTM, который создает векторы состояния для декодера. По сути, кодировщик обрабатывает ввод и извлекает наиболее важные функции. LSTM имеют несколько векторов состояния, которые он агрегирует, но, по сути, то, что LSTM отслеживает, является долгосрочным, краткосрочным и производит вывод. Распространение нашего ввода через это позволяет извлечь важные особенности нашего ввода, которые позже будут преобразованы обратно в последовательность из декодера.

Декодер. Декодер также является LSTM, но в некотором смысле реконструирует выходные данные декодера. Он может создавать представление новой последовательности из функций кодировщика. Затем выходные данные декодера пропускаются через плотный слой для создания окончательной последовательности, которая кодируется в числа. Эти чрезвычайно специфические функции нейронной сети - вот что позволяет модели последовательности 2 быть настолько эффективной. Параметры можно легко узнать, имея достаточно данных.

Обучение / Результаты

Эта модель очень хорошо тренировалась и достигла великолепных результатов. Было всего около 20 000 параметров (мало для нейронной сети), но он смог создать последовательность белка с точностью 90% и снизился до 0,4 потерь.

Никаких признаков переоборудования для 20 эпох, в которых он использовался, а это значит, что ему все еще есть место для улучшения! В целом, это действительно хорошо работает.

Демо

Последствия

Я предвижу будущее, в котором с пандемиями, болезнями и вирусами можно будет бороться безопасным и поспешным образом. Мы неизбежно переходим к более индивидуализированной, целенаправленной медицинской системе, которая отдает предпочтение тем, у кого есть деньги, а не широкой публике. Мы, как общество, должны бороться с крупномасштабными заболеваниями и делать их доступными для всех, и я считаю, что терапия CAR Т-клетками - это то, над чем мы должны работать. Прорывы в исследованиях могут ускорить процесс широкого вывода их на рынок, но нам потребуется полное сотрудничество мировых правительств, чтобы сделать их доступными для всех. Предложенное мной решение помогает сделать терапию CAR Т-клетками лучше, но не более доступной. По мере повышения точности нам необходимо повышать удобство использования.

Этот проект также помогает закрепить использование технологий НЛП в области медицины (которая становится все более надежной). Многие люди не верят, что этот искусственный интеллект поможет в открытии медицины, но факт в том, что он делает наши современные медицинские технологии лучше.

Код для проекта: https://github.com/Vansh-Sethi/Predicting-Properties-of-T-Cells-to-Increase-Immune-Response

Ключевые выводы:

  • Проблема: предсказать последовательность белка CDR3, вариабельный сегмент и присоединяющийся сегмент Т-клетки с учетом эпитопа антигена.
  • Данные эпитопа могут быть представлены в виде числа посредством кодирования и встраивания слов.
  • Переменный сегмент и присоединяющийся сегмент можно предсказать с помощью классических нейронных сетей.
  • Последовательность белка CDR3 можно предсказать, используя модель последовательности 2.

Спасибо за чтение! Это очень много значит, что люди взаимодействуют с моим контентом, и я могу поделиться своим собственным мнением. Не стесняйтесь обращаться ко мне через мой сайт. Еще раз спасибо!