Мне нужно найти сходство между справочным документом и набором документов в репозитории.
Method :
1. I find the term document matrix for all the documents including the reference document
2. The svd is calculated for this matrix
3. I take the v array(The third result)
4. I transpose this matrix so that the each row represents a document .
5. The first row represents the reference document .
6. I find the cosine similarity beween this row and the rest of the rows
Мои сомнения:
Поскольку у меня около 7 документов в моей базе данных, я получаю только 8 * 8 varray (матрица документов). ТАК, получу ли я правильный результат, если найду сходство косинуса только с этими 8 значениями?
Применяется ли такой метод вообще?
Я использую Java для кодирования этого. Я использую пакет jama, чтобы найти файл svd.