У меня есть файл в формате FASTA, который, по сути, представляет собой специальный текстовый файл, содержащий множество записей, одна из которых выглядит, как показано ниже, которую я присвоил имени «FASTA» в R. Исходный файл был красным и отформатирован, как показано ниже, с использованием seqinr в R.
FASTA<- structure(list(`tr|A1Z6G9|A1Z6G9_DROME` = structure("MSISASHPCGLNADGTATQYKESTATIQTSGLQSSPRSFLPEREDTLEYFIKFPKPSSKNEFVLAKDHDGEDSHVPIVMLLGWAGCQDRYLMKYSKIYEERGLITVRYTAPVDSLFWKRSEMIPIGEKILKLIQDMNFDAHPLIFHIFSNGGAYLYQHINLAVIKHKSPLQVRGVIFDSAPGERRIISLYRAITAIYGREKRCNCLAALVITITLSIMWFVEESISALKSLFVPSSPVRPSPFCDLKNEANRYPQLFLYSKGDIVIPYRDVEKFIRLRRDQGIQVSSVCFEDAEHVKIYTKYPKQYVQCVCNFIRNCMTIPPLKEAVNSEPSESVSRVNLKYD", name = "tr|A1Z6G9|A1Z6G9_DROME", Annot = ">tr|A1Z6G9|A1Z6G9_DROME CG8245 OS=Drosophila melanogaster GN=CG8245-RA PE=2 SV=1", class = "SeqFastaAA")))
Теперь, хотя этот формат позволяет мне получить индексы имен записи / записей, когда я ищу ее с помощью grep, как показано ниже
grep("A1Z6G9_DROME", names(FASTA))
или выделите его имя, используя
as.vector(sapply(names(attributes(FASTA)), function(x) attr(FASTA, x)))
Однако я не могу ни grep / regexpr, ни текст / информацию в разделах атрибутов, ни изолировать какие-либо атрибуты, такие как текст после раздела name = или Annot =. Кто-нибудь может мне с этим помочь?
Насколько я мог понять, при поиске в Google read.fasta в R в руководстве, относящемся к пакету seqinr, говорится что-то вроде игнорируемых аннотаций / атрибутов (я думаю), но эти разделы атрибутов содержат важную информацию, касающуюся идентичности записи , в котором я отчаянно нуждаюсь! Я пробовал исключить список или свернуть с помощью функции вставки, но они удаляют все атрибуты, которые мне нужны!