Каково значение ковариационной матрицы, построенной с помощью матрицы документа термина в PCA?

Я работаю над нейронными сетями, и для уменьшения размеров матрицы терминов-документов, построенной с помощью документов и различных терминов в ней, несущих значения tf-idf , мне нужно применить PCA. Что-то вроде этого

           Term 1       Term 2       Term 3       Term 4. ..........
Document 1 

Document 2            tfidf values of terms per document

Document 3 
.
.
.
.
.

PCA работает, получая среднее значение данных, затем вычитая среднее значение, а затем используя следующую формулу для ковариационной матрицы.

Пусть матрица M — матрица терминов-документов размерности NxN

Ковариационная матрица становится

( M x transpose(M))/N-1 

Затем мы вычисляем собственные значения и собственные векторы для подачи в качестве векторов признаков в нейронных сетях. Чего я не могу понять, так это важности ковариационной матрицы и в каких измерениях она находит ковариацию.

Потому что, если мы рассмотрим простые 2 измерения X, Y, их можно понять. Какие измерения здесь соотносятся?

Спасибо


person Hooli    schedule 09.11.2012    source источник
comment
Насколько я понимаю, ковариационная матрица предназначена для PCA, чтобы уменьшить размеры матрицы. Если два собственных вектора сильно коррелированы, то есть линейно зависимы, вы можете отбросить один из них.   -  person toxicate20    schedule 09.11.2012
comment
Спасибо за ответ :) Понял!   -  person Hooli    schedule 11.11.2012
comment
Да абсолютно, извините, мой плохой!   -  person Hooli    schedule 12.11.2012


Ответы (1)


Скрытый семантический анализ довольно хорошо описывает эту связь. В нем также объясняется, как использовать сначала полную матрицу терминов документа, а затем сокращенную, чтобы сопоставить списки (векторы) терминов с документами, близкими к соответствующим, т. е. зачем сокращать.
См. также создание-смысла-PCA-собственныхвекторов-собственныхзначений. (Много разных ответов предполагает, что ни один из них не является интуитивным для всех.)

person denis    schedule 12.11.2012
comment
Большое спасибо за ссылку :) - person Hooli; 12.11.2012