Какая польза от индексных файлов lucene в DBPedia-Spotlight..?

Я пытаюсь найти именованные сущности в заданном тексте. Для этого я попытался использовать службу прожекторов DBPedia.

  1. Я могу получить ответ от этого. Однако набор данных DBPedia ограничен, поэтому я попытался заменить их файл spotter.dict своим собственным словарем. Мой словарь содержит объекты в строке:

    Сачин Тендулкар###ЧЕЛОВЕК

    Барак Обама ###ЧЕЛОВЕК

    .... и т.д

  2. Затем я анализирую этот файл и создаю объект ExactDictionaryChunker.

  3. Теперь я могу получить объекты и их типы (после модификации кода dbpedia).

Мой вопрос: центр внимания DBPedia использует файлы индекса Lucene. Я действительно не понимаю, с какой целью они используют эти файлы?

Можем ли мы сделать это без использования индексных файлов? Каково значение индексных файлов?


person Sreedhar GS    schedule 21.02.2014    source источник
comment
Похоже, в их Github есть какое-то объяснение того, как используется Lucene. вики   -  person femtoRgon    schedule 21.02.2014
comment
Спасибо за ваш ответ. Но здесь они вообще не обсуждали индекс lucene. Это слишком абстрактно.   -  person Sreedhar GS    schedule 25.02.2014


Ответы (1)


Lucene использовался в более ранней реализации DBpedia Spotlight для хранения модели каждой сущности в нашей базе знаний. Эта модель используется, чтобы дать нам меру связи между контекстом (извлеченным из вашего входного текста) и сущностью. Более конкретно, каждый объект представлен вектором {t1: score1, t2: score2, ... }. Во время выполнения мы моделируем ваш входной текст как вектор в тех же измерениях и измеряем косинус между входным вектором и векторами объектов. В вашем случае вам нужно будет добавить вектор для Sachin Tendulkar в пространство (добавить документ в индекс Lucene), если его еще нет. Однако последняя реализация перешла от Lucene к внутреннему хранилищу контекстов в памяти. https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Internationalization-(DB-backed-core)

person Pablo Mendes    schedule 01.08.2015