В этом блоге представлена ​​необходимая справочная информация по биологическим аспектам, краткий обзор литературы и типы данных, относящиеся к проведению крупномасштабных исследований по этой теме.

Если вы решили изучить генетику вируса SARS-CoV-2, после краткого обзора литературы вы, скорее всего, откроете для себя Национальный центр биотехнологической информации NCBI С впечатляюще масштабным банком генов. В этом блоге я расскажу вам об основных биологических предпосылках, которые могут вам понадобиться, чтобы получить интуитивное представление о формате данных (он называется файлом Fasta), который вы (можете быть специалистами по данным, инженерами, специалистами по биоинформатике) и т. д.) может потребоваться для развития масштабных усилий по машинному обучению по этой теме.

Работать с данными приятнее, когда понимаешь их значение; это делает «живым» весь проект, а не только набор чисел, графиков, таблиц и т. д.

Без дальнейших вступлений, давайте перейдем к деталям ...

Биологический фон

От ДНК к образованию белков

ДНК дезоксирибонуклеиновой кислоты и РНК рибонуклеиновой кислоты состоят из четырех основных молекул, называемых нуклеотидами. Нуклеотиды содержат фосфат, сахар и одно из четырех оснований, обозначенных A, C, G, T в ДНК или A, C, G, U в молекулах РНК (рис. 1, слева). Структура ДНК представлена ​​в виде двойной спирали (рис. 1, слева), а РНК - одноцепочечной. Выражение генетического кода включает трансляцию нуклеотидной последовательности в белки. Поскольку ДНК и РНК химически и структурно подобны (рис. 1, слева), ДНК может действовать как прямая матрица для синтеза РНК путем комплементарного спаривания оснований (Транскрипция). Аминокислота (основная единица белка) кодируется группой из трех оснований (называемой кодоном), что оставляет нам 64 возможных триплета оснований (4³), однако в белках обычно встречаются только 20 различных аминокислот (рис. . 1, справа). Весь процесс трансляции называется экспрессией гена.

Структура SARS-CoV-2

SARS-CoV-2 имеет геном одноцепочечной РНК, который составляет около десятков тысяч нуклеотидов в длину «». Его геном кодирует 27 белков, включая РНК и четыре структурных белка. Четыре структурных белка, включая гликопротеин поверхности шипа, белок малой оболочки, белок матрикса и белок нуклеокапсида. Глядя на структуру вируса (рис. 2), совершенно ясно, почему белок-шип из-за своей формы и расположения на поверхности вируса опосредует связывание рецептора. Другие белки необходимы для таких функций, как оболочка РНК и сборка белков - почкование, формирование оболочки и т. Д.

Как мы заразились?

Мы, люди, как животные и другие организмы, являемся хозяевами. Вирус оживает в хозяине, где он находит условия для самовоспроизведения и распространения. Благодаря Кэри Б. Муллис, изобретателю полимеразной цепной реакции ПЦР (получившей за это Нобелевскую премию в 1993 г.), мы также можем диагностировать наличие вируса на основании последовательности ДНК хозяина. Обоснование этой машины заключается в использовании экспонирования генетического образца при высоких температурах («запекание» последовательности), чтобы позволить РНК воспроизводиться, исследовать ее размножения и обнаруживать вирусную структуру в этих «новорожденных» белковых инвариантах.

Литературный обзор

Я собрал некоторые из тем, которые, как мне кажется, больше всего представляют основные вопросы в настоящее время, что касается данных, собранных в каждой из них, это дает вам «общую картину» вируса и связанных с ним данных. Чтобы понять следующее, терминология должна быть ясной, убедитесь, что вы хорошо поняли предыдущий раздел.

  • Диагностика COVID-19

В статье Диагностика COVID-19 / Болезнь и инструменты для обнаружения обсуждается, как сегодня диагностируют заболевание COV-19 или какие шаги необходимо предпринять для обнаружения вируса у человека. в генетическом плане?

  • Эволюция и инварианты

В статьях О происхождении и продолжающейся эволюции SARS-CoV-2 и Коронавирус тяжелого острого респираторного синдрома как возбудитель новой и повторной инфекции »обсуждаются генетические инварианты между различными вирусами (SARS- CoV, RaTG13 и т. Д.) И задайте вопрос: могли ли ученые предсказать этот вирус SARS-CoV-2 на основе эволюции этих вирусов?

  • Кто виноват? (рецептор гена хозяина SARS-CoV-2)

Кто из генов является рецептором этого вируса и каковы его экспрессии и функции в разных популяциях? В статье: Сравнивается ген. Сравнительный генетический анализ нового рецептора коронавируса (2019-nCoV / SARS-CoV-2) ACE2 в разных популяциях »сравниваются генетические инварианты между людьми из разных популяций и делается акцент на ACE2 рецептора, чтобы изучить, различаются ли разные популяции по восприимчивости к этому вирусу?

  • Методы

В этой статье: Прогнозирование хозяина и инфекционности нового коронавируса в Ухане 2019 с использованием алгоритма глубокого обучения используется нейронная сеть, которая предсказывает хозяина некоторых вирусов. Авторы взяли базу данных из десятков тысяч вирусов для обучения и тестирования и даже смоделировали вирусы с помощью генетического генератора вирусов (они создали синтетические вирусы). Их дополнительные материалы подробно описывают их эксперименты - их стоит прочитать, помимо чтения статьи.

  • Структура SARS-CoV-2

Этот раздел является наиболее важным для понимания формата и содержания Fasta. В следующих статьях представлена ​​структура SARS-CoV-2: хорошо описаны белки, такие как шип, мембрана, оболочка и т. Д. Рис. 2 является иллюстратором базовой структуры вируса.

  1. « Новый коронавирус, связанный с респираторным заболеванием человека в Китае »
  2. « Геномная характеристика и эпидемиология нового коронавируса 2019 г. / значение для происхождения вируса и связывания с рецептором »

Файл Fasta

После прочтения этот раздел должен быть для вас самым легким: вы можете найти его не техническим, а практичным!

Предполагая, что вы прочитали хотя бы одну из упомянутых выше статей, давайте возьмем эту статью в качестве примера: «Новый коронавирус, связанный с респираторным заболеванием человека в Китае». Следующие шаги могут быть полезны для доступа к файлу F asta:

  1. Откройте ГенБанк
  2. Введите регистрационный номер, который упоминается в документе (например, я нашел следующее: 1, 2, 3, 4) в разделе поиска и нажмите ввод, чтобы продолжить, теперь вы можете увидеть содержимое файла организовано по разделам
  3. Хорошо, теперь у вас есть сокровище: я выделил несколько интересных разделов, таких как: дата, название статьи, в которой представлен этот образец, принимающая сторона, страна и т. Д. (Рис. 3, вверху)
  4. В конце файла базы ДНК (A, C, G, T) хозяина (рис. 3. внизу слева).
  5. Как я уже упоминал в этом блоге, вирус состоит из некоторых белков, я отметил это для вас на рис. 3, внизу справа.
  6. А теперь самое главное: наслаждайтесь Fasta, исследуйте данные…

Резюме

Изучение содержимого файла Fasta может привести нас к пониманию основных биологических аспектов, поскольку в нашем сознании естественным образом возникают вопросы, когда мы ищем рациональные объяснения последствий того, что мы переживаем в этот период времени. Мы обнаруживаем, что испытываем чувство «ответственности» за исследование или, по крайней мере, пытаемся понять этот опыт в меру наших знаний.

Я согласен с тем, что наши научные знания все еще неполны, и что есть много открытых вопросов (мы все еще едва царапаем поверхность), но, по крайней мере, мы задаем вопросы, переворачивая их снова и снова, сомневаясь, начиная с нуля и все еще стоя на плечах гигантов, позволяя нашему разуму искать ответы для себя или ради нашего мира, в котором мы живем (надеюсь, мирно).

Обсуждение

В этом блоге я показал вам, что такое файл Fasta, и помог вам разобраться в его содержании и на том, какие вопросы следует задавать на основе этого. Я пытался убедить вас, что раскрытие смысла содержания требует существенного понимания биологического фона. Я также рассказал о некоторых темах, связанных с генетическими аспектами COVID-19, и о том, какие данные были проанализированы для проведения ценных экспериментов.

Закрытие…

Дорогие читатели, спасибо, что все это прочитали. Мы будем очень признательны за любые ваши мысли, вы можете связаться со мной через Linkedin или по электронной почте (miritrope @ gmail).