Я борюсь с SpellCheckComponent в Solr (проверено с solr 4.4 и 4.5). У меня есть тип поля, определенный следующим образом:
<fieldtype name="termSuggest" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.WhitespaceTokenizerFactory" />
<filter class="solr.LowerCaseFilterFactory" />
<filter class="solr.PatternReplaceFilterFactory" pattern="(^[^A-Za-z0-9ÄÖÜßäöü]*|[^A-Za-z0-9ÄÖÜßäöü]*$)"
replacement="" replace="all" />
<filter class="solr.LengthFilterFactory" min="2" max="60" />
<filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_de.txt" format="snowball" />
<filter class="solr.ShingleFilterFactory" maxShingleSize="3" outputUnigrams="true" outputUnigramsIfNoShingles="true"
tokenSeparator=" "/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
</analyzer>
<analyzer type="query">
<tokenizer class="solr.WhitespaceTokenizerFactory" />
<filter class="solr.LowerCaseFilterFactory" />
<filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_de.txt" format="snowball" />
<filter class="solr.ShingleFilterFactory" maxShingleSize="99" outputUnigrams="false" outputUnigramsIfNoShingles="true"
tokenSeparator=" "/>
</analyzer>
</fieldtype>
Исследуя соответствующее поле с помощью анализатора solr admin, я вижу, что поле правильно анализируется в режиме индекса и в режиме запроса. В частности, это строчные буквы.
Однако, если я использую это поле в SpellCheckerComponent, я получаю предложения только в том случае, если термин указан в нижнем регистре (например, «баутрокнер» работает, а «баутрокнер» — нет). Компонент и обработчик запросов определены так, как указано в вики solr (я знаю, что черепица может не понадобиться для исправления орфографии, но я также использую поле для автоматического предложения - с точно такой же проблемой):
<searchComponent name="spellcheck" class="solr.SpellCheckComponent">
<!-- Multiple "Spell Checkers" can be declared and used by this component -->
<!-- a spellchecker built from a field of the main index -->
<lst name="spellchecker">
<str name="name">default</str>
<str name="field">_termsuggest</str>
<str name="classname">solr.DirectSolrSpellChecker</str>
<!-- the spellcheck distance measure used, the default is the internal levenshtein -->
<str name="distanceMeasure">internal</str>
<!-- minimum accuracy needed to be considered a valid spellcheck suggestion -->
<float name="accuracy">0.2</float>
<!-- the maximum #edits we consider when enumerating terms: can be 1 or 2 -->
<int name="maxEdits">2</int>
<!-- the minimum shared prefix when enumerating terms -->
<int name="minPrefix">1</int>
<!-- maximum number of inspections per result. -->
<int name="maxInspections">5</int>
<!-- minimum length of a query term to be considered for correction -->
<int name="minQueryLength">4</int>
<!-- maximum threshold of documents a query term can appear to be considered for correction -->
<!--<float name="maxQueryFrequency">0.01</float>-->
<!-- uncomment this to require suggestions to occur in 1% of the documents <float name="thresholdTokenFrequency">.01</float> -->
</lst>
</searchComponent>
<requestHandler name="/spell" class="solr.SearchHandler" startup="lazy">
<lst name="defaults">
<str name="df">_termsuggest</str>
<str name="spellcheck.dictionary">default</str>
<str name="spellcheck">on</str>
<str name="spellcheck.extendedResults">true</str>
<str name="spellcheck.count">10</str>
<str name="spellcheck.alternativeTermCount">5</str>
<str name="spellcheck.maxResultsForSuggest">5</str>
<str name="spellcheck.collate">true</str>
<str name="spellcheck.collateExtendedResults">true</str>
<str name="spellcheck.maxCollationTries">10</str>
<str name="spellcheck.maxCollations">5</str>
</lst>
<arr name="last-components">
<str>spellcheck</str>
</arr>
</requestHandler>
Я искал похожие проблемы в течение нескольких часов, но не могу найти намека, в чем проблема. Я ожидаю, что из-за анализатора запросов термин запроса должен быть в нижнем регистре. Но, похоже, это не так.
Матиас