филогенетические деревья из слов нуклеиновых кислот

Если для последовательностей нуклеиновых кислот n составлена ​​таблица частот слов (последовательность ATG соответствует двум словам длины 2, AT и TG), то эту таблицу можно использовать (непосредственно или после уменьшения размерности с помощью PCA), чтобы вычислить матрицу расстояний этих последовательностей, которая затем может быть сгруппирована в филогенетическое дерево (doi: 10.1007 / s00285-002-0185-3):

library(sequinr)
Bat1 <- read.fasta(file="bat1.FASTA")
Bat1.seq <- Bat1[[1]]
Bat1.count <- as.vector(count(Bat1.seq, 2)) # count word frequencies, k < log4(Sequence length)
...
Counts <- rbind(Bat1.count, ...)
rownames(Counts) <- c("Bat1", ...)
colnames(Counts) <- c(rownames(count(Bat1.seq, 2)))
RowCounts <- rowSums(Counts)     
Counts.norm <- Counts/RowCounts  # normalise word counts for different sequence length
distance <- dist(Counts.norm, method = "euclidian")
hc <- hclust(distance, method = "average")
plot(hc)

Филогенетическое дерево нескольких вирусных последовательностей  Филогенетическое дерево нескольких вирусных последовательностей

Это работает на удивление хорошо, результат похож на дерево, полученное путем множественного выравнивания последовательностей с помощью ClustalX, но время вычислений составляет секунды, а не часы.

Вопрос: Как я могу измерить качество этих деревьев, чтобы выбрать оптимальную длину слов k или (если используется PCA) оптимальное количество компонентов q, а также расстояние и кластеризацию методы? Желательно без длительных загрузок со случайными последовательностями ;-).


person Engelbert Buxbaum    schedule 14.01.2021    source источник
comment
Я не думаю, что есть способ количественно оценить качество дерева без прямого сравнения с эталонным деревом (вычислить значение Робинсона – Фулдса). Вы можете попробовать изменить значения ‹i› k ‹/i› и ‹i› q ‹/i›, чтобы судить о стабильности дерева (меняется ли происхождение?).   -  person Ghoti    schedule 14.01.2021
comment
Скорее всего, вы получите лучший ответ на biology.stackexchange.com   -  person Ghoti    schedule 14.01.2021


Ответы (1)


Самая важная характеристика этого дерева заключается в том, что это не филогения!

В филогении края отражают эволюционные процессы, и мы спрашиваем, имеют ли два таксона общего предка и насколько это вероятно. Скорее, дендрограмма на изображении OP представляет сходство состава последовательностей ДНК между таксонами и, таким образом, является фенетическим деревом. Понимание разницы между филогенетическим и фенетическим деревом имеет решающее значение при принятии решения об использовании предлагаемого метода. Если цель теста - установить эволюционные отношения между вирусами, этот метод не подходит.

Поскольку дерево не является филогенией, отношения не нужно проверять с точки зрения эволюционной истории.

person nya    schedule 21.01.2021