Фон

В последнем посте я расскажу, как получить информацию для подтверждения заявлений о функциональной роли гена в базе данных KEGG.



В этом посте я собираюсь проанализировать текст, используя Stanza, официальную библиотеку НЛП Python Стэнфордской группы НЛП, для анализа текста.

Подход

Прежде чем я смогу проанализировать текст, мне нужно загрузить две биомедицинские модели, а именно Craft и BioNLP13CG, которые используются для извлечения биомедицинской информации из текста.

Я использую следующий реферат, чтобы продемонстрировать процесс

The division cycle of eukaryotic cells is regulated by a family of protein kinases known as the cyclin-dependent kinases (CDKs). The sequential activation of individual members of this family and their consequent phosphorylation of critical substrates promotes orderly progression through the cell cycle. The complexes formed by CDK4 and the D-type cyclins have been strongly implicated in the control of cell proliferation during the G1 phase. CDK4 exists, in part, as a multi-protein complex with a D-type cyclin, proliferating cell nuclear antigen and a protein, p21 (refs 7-9). CDK4 associates separately with a protein of M(r) 16K, particularly in cells lacking a functional retinoblastoma protein. Here we report the isolation of a human p16 complementary DNA and demonstrate that p16 binds to CDK4 and inhibits the catalytic activity of the CDK4/cyclin D enzymes. p16 seems to act in a regulatory feedback circuit with CDK4, D-type cyclins and retinoblastoma protein.

И я выполню следующую команду

Он создаст список биомедицинских объектов.

eukaryotic cells
cyclin-dependent kinases
CDKs
cell
CDK4
D-type cyclins
cell
CDK4
D-type cyclin
proliferating cell nuclear antigen
p21
CDK4
M(r) 16K
cells
retinoblastoma protein
human
p16
DNA
p16
CDK4
CDK4
cyclin D enzymes
p16
CDK4
D-type cyclins
retinoblastoma protein

Стоит отметить, что существуют сущности, которые либо являются синонимами друг друга, либо фактически являются подтипом другого. Например, белок ретинобластомы — это белок, который может быть сокращен как pRb, а соответствующее название гена сокращено как Rb, RB или RB1.[1]CDK4является особым типом циклинзависимых киназ которыйкодируется геном CDK4. [2] Так же, как и CDKN2A, который является геном, кодирующим два белка, включая члена семейства INK4 p16 (или p16INK4a) и p14arf. [3]

Из прошлого поста я упомянул, что запись в базе данных KEGG для каждого гена может иметь разные псевдонимы. Например, CDKN2A имеет

['CDKN2A', 'P16', 'INK4A']

По-видимому, если мы хотим иметь последовательный анализ различных текстовых записей, мы должны «нормализовать» объекты в разных записях. Есть несколько способов сделать это. Самый простой — использовать словарь Python для замены интересующего объекта термином, который я предпочитаю. Более продвинутый подход будет использовать связывание сущностей или разрешение кореферентности.

Поскольку у меня здесь всего пять записей, я буду использовать словарь, чтобы устранить двусмысленность, если это необходимо.

Антракт

Я рассказал, как извлекать биомедицинские объекты с помощью библиотеки Stanza. И мы замечаем, что термины не нормированы. Это создаст трудности для анализа, если мы не сможем найти способ стандартизировать различные представления одного и того же термина.

Это то, что я собираюсь рассказать в следующем посте.

Следите за обновлениями.

[1] https://en.wikipedia.org/wiki/Ретинобластома_протеин

[2] https://en.wikipedia.org/wiki/Циклин-зависимая_киназа_4

[3] https://en.wikipedia.org/wiki/CDKN2A