Ищу решение следующей проблемы. У меня есть текстовый файл с идентификаторами генов в первом столбце, а во втором - GOterms. Поскольку каждый ген имеет несколько аннотированных GOterms, идентичные geneID встречаются несколько раз (с разными GOterms во втором столбце. Я хочу только объединить уникальные geneID с GOterms: у меня есть:
TRINITY_DN10151_c0_g1 GO:0004175
TRINITY_DN10151_c0_g1 GO:0004252
TRINITY_DN10151_c0_g1 GO:0006508
TRINITY_DN10151_c0_g1 GO:0008233
TRINITY_DN102626_c42_g1 GO:0005198
TRINITY_DN102626_c42_g1 GO:0042302
TRINITY_DN102626_c58_g1 GO:0004175
Я хочу:
TRINITY_DN10151_c0_g1 GO:0004175-GO:0004252-GO:0006508-GO:0008233
TRINITY_DN102626_c42_g1 GO:0005198-GO:0042302
так далее..
Кроме того, важно (и я действительно не знаю, как решить эту проблему), чтобы каждая комбинация терминов GO встречалась один раз. Итак, если два гена имеют одинаковую комбинацию терминов GO (A, B и C) в столбце 2, они оба должны иметь A-B-C. А также не A-C-B ..
Я пробовал использовать sort и uniq, но в итоге удалял только строки.
Может ли кто-нибудь помочь мне с решением для unix?
c58
? Вы удаляете строки ввода, которые не объединяются с другими строками ввода? - person   schedule 24.08.2018