У меня есть набор данных 132 x 107, который состоит из 2 типов пациентов - (33 пациента 1) и (99 пациента 2).
Я ищу выбросы, поэтому я запустил pca в наборе данных и сделал qqplots первых 4 компонентов, используя следующие команды
pca = prcomp(data, scale. = TRUE)
plot(pca$x, pch = 20, col = c(rep("red", 33), rep("blue", 99)))
Когда я делаю qqplot 2-го компонента, используя:
qqPlot(pca$x[,2],pch = 20, col = c(rep("red", 33), rep("blue", 99)))
на следующем графике показаны 2 четких выброса - красные точки в нижнем левом углу, которые соответствуют пациенту 1.
Есть ли какой-нибудь простой способ определить индекс этих точек в данных, чтобы их можно было удалить?