Сравните данные в Accumulo и Solr?

Я пытаюсь сравнить данные, поступающие в Accumulo и Solr из одного и того же исходного XML. Данные, поступающие в Accumulo, представляют собой устаревший код, а Solr — новый код. Я могу легко извлечь данные из Solr с помощью SolrCloud и выбрать CSV или JSON, которые легко читаются. Но я не понимаю, как легко просматривать данные в Accumulo. Я использовал сканирование для просмотра данных, но они плохо читаются. Есть ли способ экспортировать данные из Accumulo в CSV или что-то подобное, чтобы их было легко читать/сравнивать с другими наборами данных?


person N. Wang    schedule 20.12.2017    source источник


Ответы (1)


Насколько я понимаю, Apache Solr — это хранилище документов, использующее индексы Lucene для быстрого поиска через веб-интерфейс REST. С другой стороны, Apache Accumulo — это масштабируемое отсортированное хранилище ключей и значений, в котором хранятся произвольные ключи-значения. пары с метками безопасности на уровне ячейки, в соответствии с приложением пользователя, запрашиваемым с помощью Java API. Нет смысла сравнивать эти два. Это совершенно разные приложения. Accumulo — это низкоуровневое инфраструктурное приложение, на основе которого вы можете создавать сложные системы, такие как поисковая система, сравнимая с Solr, но не сравниваемая напрямую с Solr, поскольку Accumulo — это не поисковая система.

Чтобы ответить на ваш вопрос о том, как просматривать данные в Accumulo, ответ заключается в использовании его Java API. Я рекомендую начать с Tour на его веб-странице, чтобы увидеть несколько примеров того, как его запрашивать. Что касается того, как данные представлены и в какой форме, это зависит от приложения, которое в первую очередь их приняло. Это могут быть произвольные двоичные данные в байтовых массивах, которые нельзя просмотреть напрямую; это зависит от приложения. Accumulo не зависит от характера данных, хранящихся в его парах ключ-значение.

То, что вы, вероятно, имели в виду в своем вопросе, когда вы сказали "Я использовал сканирование для просмотра данных", вы, вероятно, имели в виду команду scan в оболочке Accumulo. Вероятно, вы должны знать, что оболочка не является основным интерфейсом для запроса. Он предназначен для системного администрирования и сортировки данных. Java API является основным средством запросов.

Сообщество открытого исходного кода Accumulo довольно быстро отвечает на вопросы. Если у вас возникли проблемы с выяснением того, как лучше всего использовать его для ваших нужд, я бы посоветовал задать вопрос в их списках рассылки сообщества, которые можно найти на их веб-сайте. StackOverflow больше подходит для очень конкретных вопросов, чем для общих руководств по началу работы.

person Christopher    schedule 21.12.2017