Нужен скрипт или программное обеспечение для удаления непарных чтений из парных конечных чтений.

Я хочу использовать AMOScmp для анализа парных конечных данных Illumina. AMOScmp требует такое же количество парных файлов для создания файла .afg. Исходные файлы fq являются парными. После того, как я пропустил файлы fq по отдельности через контроль качества, дублированных последовательностей и ДНК человека, я обнаружил, что парные конечные файлы fa имеют разное количество прочтений. Я хочу удалить непарные чтения из парных конечных чтений, чтобы получить два файла fa с одинаковым количеством чтений. У кого-нибудь есть скрипт или знает, какое программное обеспечение поможет мне решить проблему?


person Fang Yang    schedule 02.11.2012    source источник
comment
Каков формат прочитанных идентификаторов? Например, парные чтения данного фрагмента последовательности заканчиваются на /1 и /2, причем предшествующие символы идентичны между ними? Если это так, это может упростить решение проблемы.   -  person Matt LaFave    schedule 12.06.2013


Ответы (1)


Для этого используйте утилиту trimmomatic. Это качественная программа обрезки, которая выводит 4 файла: R1_paired, R2_paired, R1_singles, R2_singles.

Если вам просто нужно, чтобы пары сопоставлялись, просто запустите его с одним атрибутом качества, например:

МИНЛЕН:20

ПРИМЕЧАНИЕ. Следует иметь в виду, что если позже вам понадобится перетасовать два парных конечных файла, четность последовательности между двумя «парными» файлами не будет 1:1 после некоторого количества чтений. Я подозреваю, что это связано с резьбой, которая есть у триммоматика. Если вас это беспокоит, обязательно установите потоки на 1. Не уверен, что это решение, поэтому проверьте результаты, просмотрев случайные строки в обоих файлах. Выберите строки из начала, середины и конца обоих файлов. Затем сравните строки идентификатора последовательности:

голова -n 1000 R1_paired.fastq | хвост -n 4

голова -n 1000 R2_paired.fastq | хвост -n 4

Вот пример использования двух парных конечных файлов FASTQ (ПРИМЕЧАНИЕ: предполагается, что входные файлы имеют имена R1.fastq и R2.fastq, и что trimmomatic-0.30.jar находится в локальном каталоге, в противном случае вам нужно будет указать путь для java следовать)

java -jar ./trimmomatic-0.30.jar PE -threads 1 -phred33 R1.fastq R2.fastq R1_paired.fastq R1_singles.fastq R2_paired.fastq R2_singles.fastq MINLEN:20

person John    schedule 28.12.2014