Сомнения относительно LSA

Мне нужно найти сходство между справочным документом и набором документов в репозитории.

Method : 

1. I find the term document matrix for all the documents including the reference document 
2. The svd is calculated for this matrix 
3. I take the v array(The third result)
4. I transpose this matrix so that the each row represents a document . 
5. The first row represents the reference document . 
6. I find the cosine similarity beween this row and the rest of the rows

Мои сомнения:

Поскольку у меня около 7 документов в моей базе данных, я получаю только 8 * 8 varray (матрица документов). ТАК, получу ли я правильный результат, если найду сходство косинуса только с этими 8 значениями?
Применяется ли такой метод вообще?

Я использую Java для кодирования этого. Я использую пакет jama, чтобы найти файл svd.

CTsiddharth 27.01.2012 источник

comment

8 документов - ОЧЕНЬ маленький набор данных - dave 27.01.2012

comment

хорошо .. но для нахождения подобия косинуса я должен использовать матрицу u или матрицу v в результате матрицы svd (usv)? - CTsiddharth 27.01.2012

Ответы (1)

arrow_upward
0
arrow_downward

Я пробовал использовать Matlab с помощью инструментария TMG. Работает нормально.
Для получения лучших результатов (или большей точности) используйте большие наборы данных.
В LSA svd является его частью (для уменьшения размера). Для расчета косинусного подобия вам потребуется последняя матрица, которую вы получите после этого расчета: A = U * S * V ^ t.

Вы можете прочитать пример LSA

Debaditya 27.01.2012

comment

Спасибо ! но можно ли использовать LSA для поиска сходства между двумя документами (без запросов)? В этом случае мы должны рассматривать первую матрицу или последнюю матрицу в svd для вычисления косинусного подобия. Пожалуйста помоги ! - CTsiddharth; 27.01.2012

comment

В SVD мы делим матрицу на 3 матрицы. Снова нам нужно умножить эти 3 матрицы, и тогда мы получим другую матрицу размером примерно аналогично A. Как A = U * S * V ^ t. А затем применяем косинусное подобие. Это не похоже на рассмотрение первой или последней матрицы. Следуйте примеру, который я упомянул. Перейдите по этой ссылке, чтобы узнать о косинусном сходстве: [ссылка] (applysoftwaredesign.com/cosineSimilarityCalculator.php) Если у вас есть еще сомнения, то сообщите мне. - Debaditya; 27.01.2012