Обработка гибридной базы данных MySQL и XML в индекс Solr

Проблема:

Таблица в MySQL с несколькими обычными полями и одним текстовым полем, содержащим XML.

Мне нужно использовать обработчик импорта данных Solr для обработки этой таблицы в индекс Solr.
Однако поле XML необходимо разбить на несколько других полей solr каждое

Вопрос:

  1. Можно ли это сделать без написания собственного трансформатора? Если да то как. Могу ли я использовать XPathEntityProcessor с моей базой данных SQL в качестве источника данных?

  2. Если я напишу пользовательский преобразователь, как именно мне настроить его в dataConfig?

  3. Я использую более старую версию solr (1.4.1), поэтому могу ли я просто добавить новую банку с новым классом в свое веб-приложение solr?

В чем я совершенно не уверен, так это в том, как мне нужно настроить data-config.xml для этого. Если у кого-то есть примеры, поделитесь! Спасибо.


person Ravish Bhagdev    schedule 14.02.2012    source источник
comment
Аналогичный вопрос для JSON stackoverflow.com/q/9020231/604511   -  person Jesvin Jose    schedule 15.02.2012


Ответы (1)


Мое предложение состоит в том, чтобы написать программу, которая выбирает данные из базы данных, анализирует поле данных XML, а затем вставляет весь документ в индекс SOLR.

solrj Java API очень прост в использовании. Самое сложное в этом — синтаксический анализ XML, но это гораздо более простая задача и ее легче тестировать.

person Mark O'Connor    schedule 14.02.2012
comment
конечно, я уже делал подобные вещи несколько раз раньше. Но я хотел бы знать, можно ли это сделать таким образом, используя DIH, вместо того, чтобы писать шаблонный код каждый раз, когда мне нужно это сделать. В любом случае спасибо за ваше предложение. - person Ravish Bhagdev; 15.02.2012