RASA, как использовать японский язык (Tokennization-Mecab)

RASA известен как эффективный фреймворк для ботов. Такой стек, как RASA NLU и RASA Core, действительно полезен.

Я протягиваю его и обнаруживаю, что это потрясающе, особенно с английским текстом. Я еще раз пробую японский текст (альфа-поддержка простора). Я использовал его с конвейером тензорного потока, я застрял, я не могу понять, как использовать внешнюю токенизацию, такую ​​как Mecab.

Кто-нибудь испытал это ??


person Stev Jane    schedule 26.10.2018    source источник


Ответы (2)


Конвейер tensorflow работает с любым языком, в котором используются символы пробела. Поскольку это не относится к японцам, вам нужно создать свой собственный токенизатор.

Вы можете сделать это, расширив классы Tokenizer и Component, например:

class MecabTokenizer(Tokenizer, Component):

# fill with your code

Затем вы можете использовать свой собственный класс в конвейере NLU, указав путь к модулю в имени (также описано в документы), например:

pipeline:
- name: "path.to.MecabTokenizer"
# other components

Кто-то пробовал что-то подобное здесь, может быть, вы можете использовать это или взять какой-то шаблон .

person Tobias    schedule 13.11.2018

Я добавил пользовательский компонент с помощью токенизатора Mecab. У меня он отлично работает с японским текстом.

Ссылка: Rasa_Japanese

person mahbubcseju    schedule 04.07.2019