Любое скрытое семантическое индексирование?

Существует ли реализация LSI с открытым исходным кодом в Java? Я хочу использовать эту библиотеку для своего проекта. Я видел jLSI, но он реализует какую-то другую модель LSI. Я хочу стандартную модель.


person avd    schedule 17.11.2009    source источник
comment
Спасибо за добавление комментариев о jLSI.   -  person Nettogrof    schedule 17.11.2009


Ответы (6)


Рассматривали ли вы LDA (скрытое распределение Дирихле)? Я тоже не сталкивался, но недавно столкнулся с той же проблемой с LSI (патенты). Насколько я понимаю, LDA - это родственная/более мощная техника. http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation, по-видимому, содержит несколько ссылок на открытые Исходные реализации.

person Toshio Nakamura    schedule 26.12.2009

Поиск в Google java LSI приводит к похожему вопросу, который рекомендует SemanticVectors. Пакет, созданный на основе Lucene и «похожий» на LSI. Я не знаю, ближе ли это, чем реализация jLSI.

В этой ветке также упоминается, что LSI запатентована и существует не так много его реализаций. Поэтому, если вам нужна стандартная реализация, вам, возможно, придется использовать язык, отличный от java.

person Scott Ray    schedule 07.12.2009

пакет S-Space содержит версию LSA с открытым исходным кодом и привязками. для векторов документов LSI. (Оба подхода работают с одной и той же матрицей документа термина и эквивалентны, за исключением вывода.) Это довольно масштабируемый подход, использующий тонкий SVD. Я использовал его для запуска LSI во всей Википедии без проблем (после удаления нечастых терминов с менее чем 5 вхождениями).

Как упомянул Скотт Рэй, пакет SemanticVectors также имеет хорошую реализацию LSI, которая недавно переключилась на использование того же тонкого SVD (SVDLIBJ), так что вы можете проверить это, как если бы вы этого не делали раньше.

person David Jurgens    schedule 17.03.2011

поиск инструментов НЛП в Google предоставляет эти слайды, которые, я думаю, помогают...

person S Gaber    schedule 02.05.2012

Я считаю, что LSA/LSI был запатентован в 1989 году, что означает, что срок действия патента должен был только что истечь. Надеюсь, мы скоро увидим несколько хороших приложений с открытым исходным кодом.

person Andrew Beck    schedule 17.05.2010

Вы пробовали пакет Semantic Vector?

http://code.google.com/p/semanticvectors/

person Matt Wright    schedule 10.08.2011