Требуется создать собственный анализатор, который может генерировать два токена, как показано в следующих сценариях.
E.g.
Input -> B.tech in
Output Tokens ->
- btechin
- b.tech in
Я могу удалить не буквенно-цифровой символ, но как сохранить исходный в списке выходных токенов. Ниже приведен пользовательский анализатор, который я создал.
"alphanumericStringAnalyzer": {
"filter": [
"lowercase",
"minLength_filter"],
"char_filter": [
"specialCharactersFilter"
],
"type": "custom",
"tokenizer": "keyword"
}
"char_filter": {
"specialCharactersFilter": {
"pattern": "[^A-Za-z0-9]",
"type": "pattern_replace",
"replacement": ""
}
},
Этот анализатор генерирует один токен "btechin" для ввода "B.tech in", но мне также нужен оригинальный токен в списке токенов "B.tech in"
Спасибо!