Поддерживает ли Mahout определение корней слов?

Я использую mahout для обнаружения темы с помощью LDA. Для подготовки данных я использую seq2sparse, который токенизирует документ и создает n-граммы. Однако по умолчанию он не поддерживает создание корней слов. Интересно узнать, есть ли в Mahout встроенная основа слова? Если нет, должен ли я реализовать свой собственный? Любая рекомендация?


person HHH    schedule 06.05.2015    source источник


Ответы (1)


Вы можете уточнить свой анализатор с помощью команды seq2sparse:

$MAHOUT_HOME/bin/mahout seq2sparse
             ...
             --analyzerName (-a) analyzerName  The class name of the analyzer 

Анализатор представляет собой анализатор Apache Lucene, поэтому вам нужно указать имя следующим образом, например:

org.apache.lucene.analysis.fr.FrenchAnalyzer

Я предлагаю вам прочитать официальную документацию для получения дополнительной информации. о том, что вы можете сделать с помощью команды seqsparse. Вам также необходимо прочитать некоторую документацию по Lucene.

PS: вы должны использовать ту же версию lucene, что и в mahout.

person eliasah    schedule 06.05.2015
comment
Спасибо, поэтому я заглянул в Lucence, и похоже, что есть разные алгоритмы стемминга, то есть EnglishMinimalStemmer, EnglishStemmer. Вы знаете, какой из них лучше? Другой вопрос, который у меня есть, заключается в том, как я могу узнать версию моей версии Lucene? - person HHH; 06.05.2015
comment
Алгоритмы стемминга должны соответствовать вашим потребностям и вариантам использования. Я не могу сказать, что лучше. Вы должны оценить оба и посмотреть, какой из них лучше подходит для вашей модели. - person eliasah; 06.05.2015
comment
Вы можете найти версию Lucene в документации Mahout или даже для более подробного ознакомления. Вы не можете попробовать pom.xml в исходном коде mahout. - person eliasah; 06.05.2015
comment
Я попытался передать стеммер в качестве анализатора, но он выдает мне сообщение об ошибке. Похоже, что только класс EnglsishAnalyzer (или подобные, такие как FrenchAnalyze) можно использовать, а не стеммер? - person HHH; 06.05.2015
comment
Какую версию mahout вы используете? - person eliasah; 06.05.2015
comment
Последний, который поставляется с Hortonworks 2.2 (mahout-examples-0.9.0.2.2.0.0-2041-job) - person HHH; 06.05.2015
comment
Давайте продолжим обсуждение в чате. - person HHH; 06.05.2015