Некоторые вопросы относительно индексации Apache Solr

Я установил Solr 3.6.2 и drupal 7 на xampp для Linux на своем сервере. я также установил модуль интеграции solr apachesolr-7.x-1.1.zip

1) когда я индексирую файл, скажем, book.csv, где этот файл сохраняется в solr. (имя папки path_to ??)

2) Чтобы узнать общее количество проиндексированных файлов, а также имена файлов, которые были проиндексированы?

3) Я не могу понять синтаксис запроса для solr? что такое q, wt, каковы различные синтаксические анализаторы и последствия каждого из них?

4) Как найти путь к проиндексированному файлу? Предположим, у меня есть файл, который я проиндексировал, и когда я выполняю поиск по запросу, он должен возвращать путь к файлу, из которого он был проиндексирован, чтобы я мог открыть файл для просмотра пользователями.


person Sanjay Rao    schedule 16.03.2013    source источник
comment
Если у вас есть конкретные вопросы о вещах, которые вы найдете здесь в документации, пожалуйста, задавайте их. wiki.apache.org/solr   -  person Andy Lester    schedule 16.03.2013
comment
У меня есть еще один qn, и это если я проиндексировал файл, скажем, test.docx, и у меня есть некоторые комментарии к файлу, такие как версия приложения = 5.6.2 и клиент = ABC tech и т. д., каким должен быть мой curl stmt, похожий на curl localhost:8983/solr/update/ VER=ABC 5.2.2, Заказчик = Microsoft, Дата = 24 марта 2013 г. '& commit = true -F myfile = @ test.docx. Правилен ли мой curl stmt?   -  person Sanjay Rao    schedule 25.03.2013
comment
И у меня есть поле с именем comment в моем schema.xml ‹имя поля=тип комментариев=text_general indexed=true store=true/›   -  person Sanjay Rao    schedule 25.03.2013


Ответы (1)


1) 4) Загруженный файл разбивается на его документы; и документы разбираются и помещаются в указатель. Это похоже на индексный том всемирной книги: «относительность» может указывать на том «М» для «современной физики» и том «Е» для «Эйнштейна». Или книгу, которая классифицирует налогоплательщиков по налоговым группам.

Это поведение управляется свойствами stored и indexed в схеме.

Данные попадают в каталог data solr (рядом с conf). Вы можете создать резервную копию этого каталога, скопировав его.

2) http://wiki.apache.org/solr/CommonQueryParameters и http://wiki.apache.org/solr/SimpleFacetParameters . Особенно используйте fl

3) Пожалуйста, попробуйте solr сами. Вы можете получить его и попробовать запросы в кратчайшие сроки.

person Jesvin Jose    schedule 16.03.2013
comment
Ваш ответ был довольно хорош, за исключением того факта, что когда я проиндексировал файл PDF, представьте себе годовой информационный бюллетень компании. когда я проиндексировал его, текст поля был сохранен = false. так что мне придется переиндексировать мой файл после того, как я исправил файл schema.xml с этим полем, чтобы быть правдой??? Я очень стараюсь, чтобы содержимое pdf-файла отображало часть ответа, но все, что я получаю, это метаданные pdf-файла. - person Sanjay Rao; 22.03.2013
comment
Вы должны переиндексировать. И Тика сократит PDF до текста. - person Jesvin Jose; 22.03.2013
comment
Я не пробовал ваш вышеуказанный шаг, но просто чтобы вы знали, что я нажал ссылку статистики на моей странице администратора для solr, т.е. localhost:8983/solr/admin для обработчика запросов на обновление/извлечение значение stats: is note: еще не инициализировано. Что это значит ? потому что я использовал этот обработчик запросов для индексации моего файла PDF. - person Sanjay Rao; 22.03.2013
comment
Кроме того, когда я проиндексировал свой файл books.csv из примеров документов и использовал обработчик запросов update/csv и его статистику: также обратите внимание: еще не инициализирован, но это извлекло все содержимое файла books.csv. поэтому я думаю, что ваше предложение выше должно быть правильным? позвольте мне попробовать это - person Sanjay Rao; 22.03.2013