Я загружаю множество PDF-документов в службу извлечения и ранжирования, но не знаю, нужно ли сообщать службам Solr или IBM Retrieve and Rank, что определенную часть моего PDF-документа следует рассматривать как поле для последующего запроса, например, имя или идентификатор процесса документа.
IBM Watson — Извлечение и ранжирование: как определить, что текст в документе PDF следует рассматривать как поле?
Ответы (1)
Вы не можете сделать это при загрузке документов с помощью веб-интерфейса, так как при этом заполняются только некоторые поля по умолчанию, такие как текст и заголовок.
Но вы можете программно добавлять содержимое своих PDF-документов в коллекцию R&R. И когда вы это сделаете, вы можете добавить любые поля, которые хотите.
Например. из документации по адресу https://www.ibm.com/watson/developercloud/retrieve-and-rank/api/v1/?java#index_doc
RetrieveAndRank service = new RetrieveAndRank();
service.setUsernameAndPassword("{username}","{password}");
SolrInputDocument newdoc = new SolrInputDocument();
document.addField("id", 1);
document.addField("author", "brenckman,m.");
document.addField("bibliography", "j. ae. scs. 25, 1958, 324.");
etc...
UpdateResponse addResponse = solrClient.add("example_collection", newdoc);
solrClient.commit("example_collection");
Точно так же, как в этом примере используются author
и bibliography
в качестве имен дополнительных полей, вы можете добавить новые, например идентификатор процесса.
Вам потребуется обновить схему коллекции R&R, чтобы указать эти новые поля. Вы можете использовать схему по адресу https://github.com/IBM-Watson/kale/blob/master/solr/knowledge-expansion-en.xml#L36 в качестве примера указания дополнительных полей.