Получение наиболее вероятных документов запроса с использованием фонетического фильтра в solr

Я использую solr для проверки орфографии/исправления запросов. Я добавил solr.PhoneticFilterFactory и solr.NGramFilterFactory в fieldType для выполнения проверки орфографии. Он работает нормально, но здесь проблема заключается в том, что я получаю количество документов запроса. Мне нужны только наиболее вероятные слова/документы или похожие слова, можно сказать, что более близкие слова/документы к запросу.

Фрагмент файла schema.xml:

<fieldType name="textSpell" class="solr.TextField" positionIncrementGap="100">
       <analyzer type="index">         
        <filter class="solr.TrimFilterFactory"/>        
        <filter class="solr.NGramFilterFactory" minGramSize="2" maxGramSize="1000" />
        <filter class="solr.LowerCaseFilterFactory"/>
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>        
        <filter class="solr.PhoneticFilterFactory" encoder="DoubleMetaphone" inject="true"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
    </analyzer>
    <analyzer type="query">
        <filter class="solr.TrimFilterFactory"/>
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>        
        <filter class="solr.LowerCaseFilterFactory"/>       
        <filter class="solr.PhoneticFilterFactory" encoder="DoubleMetaphone" inject="true"/>
    </analyzer>
</fieldType>

Пример : для запроса "часть". Я получаю около 780 NumFound (количество документов). Мне нужно уменьшить это количество, но с наиболее вероятным количеством документов.

iNikkz 15.12.2014 источник

comment

По какой причине вы используете и ngram и фонетику? Это приведет к тому, что почти каждый документ будет соответствовать каждому (короткому) запросу. Вы также можете протестировать другой фонетический кодировщик. - MatsLindh 15.12.2014

comment

@ MatsLindh: Я пробовал использовать другой фонетический кодировщик, но думаю, что кодировщик DoubleMetaphone лучше всех. Есть что-то, относящееся к порогу, по которому я могу получить только самые популярные термины/документы для запроса. - iNikkz 16.12.2014

comment

@iNikkz, можете ли вы поделиться, какие термины соответствуют piece? - sidgate 22.12.2014

comment

@sidgate: я получаю такие слова, как «предисловие, место, мир и т. Д., Всего 780 слов. - iNikkz 22.12.2014

comment

@iNikkz - Вы смогли найти здесь решение?? - Amartya 16.04.2016

Получение наиболее вероятных документов запроса с использованием фонетического фильтра в solr

Вопросы по теме