Если я передам список настраиваемых игнорируемых слов в _1 _, когда именно стоп-слова будут удалены? Согласно документации:
стоп-слова:
string
{‘english’},list
илиNone
(по умолчанию)...
Если список, предполагается, что этот список содержит стоп-слова, все из которых будут удалены из результирующих токенов. Применимо только если
analyzer == 'word'
.
так что кажется, что процесс происходит после токенизации, я прав? Сомнение возникает, потому что, если токенизация также включает в себя стемминг, я думаю, есть риск ошибочно пропустить (не удалить) стоп-слово, потому что после стемминга он больше не распознается.