Интерфейс подобия LSA

Я аспирант переводоведения и сейчас работаю над диссертацией. Я использую интерфейс подобия LSA в качестве метода анализа в своей диссертации. Я занимаюсь лингвистикой, а не информатикой. Я попытался найти простой инструмент категоризации документов LSA, но не смог его найти. Пробовал играть с Gensim, не получилось. Я думаю, что моя проблема заключается в том, чтобы связать мой корпус (файлы txt) с инструментом Gensim для проведения анализа (я не знаю, как выполнить этот шаг). Я был бы очень признателен, если бы кто-нибудь мог помочь мне с анализом или указать мне какой-либо инструмент или простые учебные пособия, чтобы сделать это с помощью Gensim.

Я хочу сделать следующее: я хочу применить запросы документ-документ, чтобы получить 5 наиболее релевантных документов из корпуса в документ запроса.

  1. У меня есть 15 документов запроса
  2. У меня есть один корпус (150 текстов) Тексты рассказов

Я в отчаянии, и я не решался разместить этот вопрос здесь. Я уверен, что применение АЛП в переводоведении расширило бы поле, и это заставляет меня более настойчиво искать способ провести свой анализ.


person Sabri Bataineh    schedule 21.12.2014    source источник


Ответы (1)


Единственный действительно простой и удобный инструмент для LSA, доступный прямо сейчас, — это http://lsa.colorado.edu/. . К сожалению, это только веб-инструмент, и он не позволяет вам обучать LSA на собственных корпусах. Но в зависимости от ваших потребностей это может не иметь значения.

Если я правильно вас понимаю, вам нужны оценки сходства между документами между каждым из 15 документов запроса и каждым из 150 рассказов (всего 15 * 150 = 2250 оценок сходства). Если эти документы с запросами и рассказы на английском языке, то вы можете использовать версию АЛП, обученную на корпусе TASA, используемом во многих исследованиях АЛП, следующим образом:

  • Перейдите на страницу http://lsa.colorado.edu/.
  • Выберите сравнение «один ко многим»
  • Скопируйте и вставьте один из рассказов в поле «Основной текст» и 15 запросов, разделенных пустой строкой, в поле «Тексты для сравнения».
  • Повторите для каждого из ваших рассказов. Огромная боль? да. Но если ты в отчаянии...

Если вы немного программируете на Python или R, другие инструменты для LSA включают http://clic.cimec.unitn.it/composes/toolkit/introduction.html и http://cran.r-project.org/web/packages/lsa/lsa.pdf и избавит вас от ручного труда, связанного с приведенным выше предложением. Кроме того, я знаю, что вы уже пробовали Gensim, но для него есть хорошее руководство по адресу http://radimrehurek.com/gensim/tutorial.html, которым вы можете попробовать следовать, если вы еще этого не сделали.

person Gabriel    schedule 28.12.2014