Как удалить snps с отсутствующими именами

У меня есть набор данных 1000 G в формате PLINK, есть несколько snps с именами как ".", можно ли в PLINK удалить эти snps?

Я попробовал представление bcftool, которое работает неправильно.


person bha    schedule 11.04.2018    source источник
comment
пробовали ли вы вариант --exclude my_snps.txt, где my_snps.txt содержит имена SNP, которые вы хотите исключить, например "."?   -  person Kevin L Keys    schedule 12.04.2018
comment
Как я могу отфильтровать SNP с именами? есть ли какая-либо прямая команда в PLINK, или я должен попробовать что-то еще?   -  person bha    schedule 12.04.2018
comment
--exclude документирован на веб-сайте PLINK здесь. Вам нужен всего один столбец текста, по одной строке на SNP. В вашем случае одна строка должна содержать ровно .   -  person Kevin L Keys    schedule 13.04.2018


Ответы (1)


Выполните следующую команду

 plink --bfile $YOUR_GENOTYPE_FILE --extract SNPS_TO_EXCLUDE.txt --make-bed --out $NEW_GENOTYPE_FILE

где переменные $ — это желаемые префиксы файлов PLINK BED/BIM/BAM.

Как выглядит SNPS_TO_EXCLUDE.txt? С веб-сайта PLINK:

--extract обычно принимает текстовый файл со списком идентификаторов вариантов (обычно по одному в строке, но можно просто разделить их пробелами) и удаляет все не перечисленные варианты из текущего анализа.

--exclude делает то же самое для всех перечисленных вариантов.

Таким образом, SNPS_TO_EXCLUDE.txt должна содержать строку с ".".

person Kevin L Keys    schedule 13.04.2018
comment
Спасибо! все отсортировано - person bha; 14.04.2018
comment
Приятно слышать! Если это ответило на ваш вопрос, то, пожалуйста, примите ответ - person Kevin L Keys; 15.04.2018