IBM Watson — Извлечение и ранжирование: как определить, что текст в документе PDF следует рассматривать как поле?

Я загружаю множество PDF-документов в службу извлечения и ранжирования, но не знаю, нужно ли сообщать службам Solr или IBM Retrieve and Rank, что определенную часть моего PDF-документа следует рассматривать как поле для последующего запроса, например, имя или идентификатор процесса документа.

Wagner Santana 20.10.2016 источник

comment

Добро пожаловать в Stack Overflow! Пожалуйста, просмотрите наш Контрольный список вопросов SO, чтобы помочь вам задать хороший вопрос и, таким образом, получить хороший ответ. - Joe C 20.10.2016

Ответы (1)

arrow_upward
0
arrow_downward

Вы не можете сделать это при загрузке документов с помощью веб-интерфейса, так как при этом заполняются только некоторые поля по умолчанию, такие как текст и заголовок.

Но вы можете программно добавлять содержимое своих PDF-документов в коллекцию R&R. И когда вы это сделаете, вы можете добавить любые поля, которые хотите.

Например. из документации по адресу https://www.ibm.com/watson/developercloud/retrieve-and-rank/api/v1/?java#index_doc

RetrieveAndRank service = new RetrieveAndRank();
service.setUsernameAndPassword("{username}","{password}");

SolrInputDocument newdoc = new SolrInputDocument();
document.addField("id", 1);
document.addField("author", "brenckman,m.");
document.addField("bibliography", "j. ae. scs. 25, 1958, 324.");
etc... 

UpdateResponse addResponse = solrClient.add("example_collection", newdoc);

solrClient.commit("example_collection");

Точно так же, как в этом примере используются author и bibliography в качестве имен дополнительных полей, вы можете добавить новые, например идентификатор процесса.

Вам потребуется обновить схему коллекции R&R, чтобы указать эти новые поля. Вы можете использовать схему по адресу https://github.com/IBM-Watson/kale/blob/master/solr/knowledge-expansion-en.xml#L36 в качестве примера указания дополнительных полей.

dalelane 21.10.2016

comment

Благодарю вас! Спас мою жизнь. - Wagner Santana; 21.10.2016

IBM Watson — Извлечение и ранжирование: как определить, что текст в документе PDF следует рассматривать как поле?

Ответы (1)

Вопросы по теме