подсчет частоты фразы solr

Привет всем, есть ли способ узнать частоту фразы в документе в solr. У меня есть документ, подобный приведенному ниже, мне нужно узнать, сколько раз фраза повторяется в документе.

образец ввода:

1) «Текстовые сообщения или текстовые сообщения - это составление и отправка электронных сообщений»

2) "35 U.S.C. § 271(e)(2)(A)"

вывод: количество фраз в документе

`{" id ": 1," filecontent ":" Обмен текстовыми сообщениями или текстовыми сообщениями - это процесс составления и отправки электронных сообщений, обычно состоящих из буквенных и цифровых символов, между двумя или более пользователями мобильных телефонов, планшетов, настольных компьютеров / ноутбуки или другие устройства. Текстовые сообщения могут быть отправлены по сотовой сети, а также могут быть отправлены через подключение к Интернету.

Первоначально этот термин относился к сообщениям, отправленным с помощью службы коротких сообщений (SMS). Он вышел за рамки буквенно-цифрового текста и теперь включает мультимедийные сообщения (известные как MMS), содержащие цифровые изображения, видео и звуковой контент, а также идеограммы, известные как эмодзи (счастливые лица, грустные лица и другие значки).

По состоянию на 2017 год текстовые сообщения ABC используются молодежью и взрослыми в личных, семейных и социальных целях, а также в бизнесе. Правительственные и неправительственные организации используют текстовые сообщения для общения между коллегами. Как и в случае с электронной почтой, в 2010-х годах отправка коротких неформальных сообщений стала общепринятой частью многих культур. [1] Это делает текстовые сообщения быстрым и легким способом общения с друзьями и коллегами, в том числе в ситуациях, когда звонок был бы невежливым или неуместным (например, звонить очень поздно ночью или когда кто-то знает, что другой человек занят семейными или рабочими делами). Подобно электронной и голосовой почте и в отличие от вызовов (при которых вызывающий абонент надеется поговорить напрямую с получателем), отправка текстовых сообщений не требует, чтобы и вызывающий, и получатель были свободны одновременно; это позволяет общаться даже между занятыми людьми. Текстовые сообщения также можно использовать для взаимодействия с автоматизированными системами, например, для заказа продуктов или услуг на веб-сайтах электронной коммерции или для участия в 35 U.S.C. § 271 (e) (2) (A) в онлайн-конкурсах. Рекламодатели и поставщики услуг используют прямой текстовый маркетинг для отправки сообщений мобильным пользователям об акциях, сроках оплаты и других уведомлениях вместо использования почты, электронной или голосовой почты. молодежью и взрослыми для личного пользования, молодежью и взрослыми для личного пользования, молодежью и взрослыми для личного пользования, обмен сообщениями, textx "}`


person Aneesh K    schedule 20.02.2018    source источник
comment
Как долго могут быть фразы запроса? т.е. можете ли вы ограничить количество токенов, объединяемых во фразу, до 12? 16? и т. д. - что позволит вам создавать черепицу для каждой последовательности токенов.   -  person MatsLindh    schedule 20.02.2018
comment
около 50 слов это нормально   -  person Aneesh K    schedule 20.02.2018
comment
Я использовал фабрику гонтовых фильтров, но она занимает много места   -  person Aneesh K    schedule 22.02.2018
comment
Если вам нужно только количество результатов для одной фразы - по какой причине вы не можете просто найти фразу и использовать общее количество найденных совпадений?   -  person MatsLindh    schedule 25.02.2018
comment
Мне нужно подсчитать совпадающие фразы в одном документе   -  person Aneesh K    schedule 26.02.2018
comment
Разве обычный фразовый запрос не сделает это за вас?   -  person MatsLindh    schedule 26.02.2018
comment
Извините, вы можете привести мне пример.   -  person Aneesh K    schedule 26.02.2018
comment
Он не дает подсчет совпадающих фраз в документе. Он дает общее количество просмотров только во всех документах.   -  person Aneesh K    schedule 26.02.2018
comment
Проверьте вывод, добавив debugQuery=true - он может включать количество повторений фразы.   -  person MatsLindh    schedule 26.02.2018
comment
Большое спасибо, что он там, счетчик частоты фраз находится в отладочном запросе   -  person Aneesh K    schedule 26.02.2018
comment
Есть ли способ получить только поле фразеFreq из вывода отладочного запроса   -  person Aneesh K    schedule 26.02.2018


Ответы (1)


поместите debug=results в конец URL-адреса solr, это также даст вам фразу freq.

особая благодарность matslindh

person Aneesh K    schedule 26.02.2018