Индексирование документов с помощью websolr

Мы рассматриваем возможность использования надстройки Websolr для поиска ресурсов в нашем приложении Rails.

Приложение содержит множество моделей ресурсов. Большинство моделей ресурсов самодостаточны и имеют ряд атрибутов: автор, название, набор тегов и т. д., однако к некоторым моделям ресурсов прилагается PDF-файл. Нам нужно проиндексировать содержимое этого PDF-файла, чтобы его можно было найти как часть Ресурса.

Как мне подойти к этому?


person Undistraction    schedule 24.02.2013    source источник
comment
может быть, этот вопрос будет вашим ответом   -  person Anand Khatri    schedule 24.02.2013


Ответы (1)


Это должно помочь вам начать: ExtractingRequestHandler, который интегрирует Tika в Solr.

person arun    schedule 24.02.2013
comment
Хороший. Большое спасибо. Был ли у вас опыт реализации этого с помощью Rails и Websolr? Это точно возможно? - person Undistraction; 24.02.2013
comment
Нет, у меня нет опыта работы с Rails/WebSolr, поэтому мой ответ был таким коротким :-). Погуглил и нашел johntwang. com/blog/2011/09/05/ и github.com/chebyte/sunspot_cell . - person arun; 24.02.2013
comment
Мы поддерживаем Solr Cell в Websolr — интеграция клиента определенно может варьироваться от платформы к платформе. - person Nick Zadrozny; 25.02.2013