Какая польза от индексных файлов lucene в DBPedia-Spotlight..?

Я пытаюсь найти именованные сущности в заданном тексте. Для этого я попытался использовать службу прожекторов DBPedia.

Я могу получить ответ от этого. Однако набор данных DBPedia ограничен, поэтому я попытался заменить их файл spotter.dict своим собственным словарем. Мой словарь содержит объекты в строке:

Сачин Тендулкар###ЧЕЛОВЕК

Барак Обама ###ЧЕЛОВЕК

.... и т.д
Затем я анализирую этот файл и создаю объект ExactDictionaryChunker.
Теперь я могу получить объекты и их типы (после модификации кода dbpedia).

Мой вопрос: центр внимания DBPedia использует файлы индекса Lucene. Я действительно не понимаю, с какой целью они используют эти файлы?

Можем ли мы сделать это без использования индексных файлов? Каково значение индексных файлов?

Sreedhar GS 21.02.2014 источник

comment

Похоже, в их Github есть какое-то объяснение того, как используется Lucene. вики - femtoRgon 21.02.2014

comment

Спасибо за ваш ответ. Но здесь они вообще не обсуждали индекс lucene. Это слишком абстрактно. - Sreedhar GS 25.02.2014

Ответы (1)

arrow_upward
0
arrow_downward

Lucene использовался в более ранней реализации DBpedia Spotlight для хранения модели каждой сущности в нашей базе знаний. Эта модель используется, чтобы дать нам меру связи между контекстом (извлеченным из вашего входного текста) и сущностью. Более конкретно, каждый объект представлен вектором {t1: score1, t2: score2, ... }. Во время выполнения мы моделируем ваш входной текст как вектор в тех же измерениях и измеряем косинус между входным вектором и векторами объектов. В вашем случае вам нужно будет добавить вектор для Sachin Tendulkar в пространство (добавить документ в индекс Lucene), если его еще нет. Однако последняя реализация перешла от Lucene к внутреннему хранилищу контекстов в памяти. https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Internationalization-(DB-backed-core)

Pablo Mendes 01.08.2015

Какая польза от индексных файлов lucene в DBPedia-Spotlight..?

Ответы (1)

Вопросы по теме