Я работаю над нейронными сетями, и для уменьшения размеров матрицы терминов-документов, построенной с помощью документов и различных терминов в ней, несущих значения tf-idf , мне нужно применить PCA. Что-то вроде этого
Term 1 Term 2 Term 3 Term 4. ..........
Document 1
Document 2 tfidf values of terms per document
Document 3
.
.
.
.
.
PCA работает, получая среднее значение данных, затем вычитая среднее значение, а затем используя следующую формулу для ковариационной матрицы.
Пусть матрица M — матрица терминов-документов размерности NxN
Ковариационная матрица становится
( M x transpose(M))/N-1
Затем мы вычисляем собственные значения и собственные векторы для подачи в качестве векторов признаков в нейронных сетях. Чего я не могу понять, так это важности ковариационной матрицы и в каких измерениях она находит ковариацию.
Потому что, если мы рассмотрим простые 2 измерения X, Y, их можно понять. Какие измерения здесь соотносятся?
Спасибо