Я пытаюсь найти именованные сущности в заданном тексте. Для этого я попытался использовать службу прожекторов DBPedia.
Я могу получить ответ от этого. Однако набор данных DBPedia ограничен, поэтому я попытался заменить их файл spotter.dict своим собственным словарем. Мой словарь содержит объекты в строке:
Сачин Тендулкар###ЧЕЛОВЕК
Барак Обама ###ЧЕЛОВЕК
.... и т.д
Затем я анализирую этот файл и создаю объект
ExactDictionaryChunker
.Теперь я могу получить объекты и их типы (после модификации кода dbpedia).
Мой вопрос: центр внимания DBPedia использует файлы индекса Lucene. Я действительно не понимаю, с какой целью они используют эти файлы?
Можем ли мы сделать это без использования индексных файлов? Каково значение индексных файлов?