В основном я хочу удалить все пробелы и разметить всю строку как один токен. (Позже я буду использовать nGram поверх этого.)
Это мои настройки индекса:
"settings": {
"index": {
"analysis": {
"filter": {
"whitespace_remove": {
"type": "pattern_replace",
"pattern": " ",
"replacement": ""
}
},
"analyzer": {
"meliuz_analyzer": {
"filter": [
"lowercase",
"whitespace_remove"
],
"type": "custom",
"tokenizer": "standard"
}
}
}
}
Вместо "pattern": " "
попробовал тоже "pattern": "\\u0020"
и \\s
.
Но когда я анализирую текст «beleza na web», он по-прежнему создает три отдельных токена: «beleza», «na» и «web» вместо одного единственного «belezanaweb».