Как разбить большой документ на более мелкие блоки ответов при извлечении и ранжировании?

Я все еще очень новичок в службах Retrieve и Rank, а также в службах преобразования документов, поэтому в последнее время я экспериментировал с этим.

Я столкнулся с проблемой, когда при загрузке большого документа (более 100 страниц) Retrieve and Rank помогли мне автоматически разбить его на блоки ответов, что здорово и полезно.

Однако для некоторых вопросов требуется только ОДНА небольшая строка в больших блоках ответов. Есть ли способ вручную разбить блоки ответов, предоставленные мне службой извлечения и ранжирования?

Я слышал, что вы можете сделать это через JavaScript, но есть ли способ сделать это через пользовательский интерфейс?

Я подумываю вручную разбить огромный документ на несколько более мелких документов, но это потенциально может привести к их сотням — это, вероятно, последний вариант, к которому я бы прибегнул.

Любая помощь или предложения очень ценятся!

Спасибо вам всем!


person Ngoodles    schedule 22.02.2017    source источник


Ответы (1)


Прежде всего, одно уточнение:

Retrieve and Rank не разбивает ваши документы на блоки ответов. Это то, что делает служба преобразования документов, когда целью преобразования является ANSWER_UNITS.

Что касается вашего вопроса:

Я не совсем понимаю, что именно вы пытаетесь сделать, но если единицы ответов, которые создаются по умолчанию, не соответствуют вашим требованиям, вы можете настроить различные этапы процесса преобразования, чтобы настроить созданные единицы ответов. Ознакомьтесь с документацией здесь.

В частности, вы хотите убедиться, что уровни заголовков (для Word, PDF или HTML, в зависимости от типа вашего документа) определены таким образом, чтобы они определяли начало каждого блока ответа. Затем убедитесь, что заданные вами уровни заголовков (h1, h2, h3 и т. д.) включены в список selector_tags в разделе answer_units.

Как только ваша настраиваемая конфигурация службы преобразования документов создаст нужные вам блоки ответов, вы будете готовы отправить их в службу извлечения и ранжирования для индексации.

person Anton Prevosti    schedule 22.02.2017