Я использую mahout для обнаружения темы с помощью LDA. Для подготовки данных я использую seq2sparse
, который токенизирует документ и создает n-граммы. Однако по умолчанию он не поддерживает создание корней слов. Интересно узнать, есть ли в Mahout встроенная основа слова? Если нет, должен ли я реализовать свой собственный? Любая рекомендация?
Поддерживает ли Mahout определение корней слов?
Ответы (1)
Вы можете уточнить свой анализатор с помощью команды seq2sparse
:
$MAHOUT_HOME/bin/mahout seq2sparse
...
--analyzerName (-a) analyzerName The class name of the analyzer
Анализатор представляет собой анализатор Apache Lucene, поэтому вам нужно указать имя следующим образом, например:
org.apache.lucene.analysis.fr.FrenchAnalyzer
Я предлагаю вам прочитать официальную документацию для получения дополнительной информации. о том, что вы можете сделать с помощью команды seqsparse
. Вам также необходимо прочитать некоторую документацию по Lucene.
PS: вы должны использовать ту же версию lucene, что и в mahout.
person
eliasah
schedule
06.05.2015
Спасибо, поэтому я заглянул в Lucence, и похоже, что есть разные алгоритмы стемминга, то есть
EnglishMinimalStemmer
, EnglishStemmer
. Вы знаете, какой из них лучше? Другой вопрос, который у меня есть, заключается в том, как я могу узнать версию моей версии Lucene?
- person HHH; 06.05.2015
Алгоритмы стемминга должны соответствовать вашим потребностям и вариантам использования. Я не могу сказать, что лучше. Вы должны оценить оба и посмотреть, какой из них лучше подходит для вашей модели.
- person eliasah; 06.05.2015
Вы можете найти версию Lucene в документации Mahout или даже для более подробного ознакомления. Вы не можете попробовать pom.xml в исходном коде mahout.
- person eliasah; 06.05.2015
Я попытался передать стеммер в качестве анализатора, но он выдает мне сообщение об ошибке. Похоже, что только класс EnglsishAnalyzer (или подобные, такие как FrenchAnalyze) можно использовать, а не стеммер?
- person HHH; 06.05.2015
Какую версию mahout вы используете?
- person eliasah; 06.05.2015
Последний, который поставляется с Hortonworks 2.2 (mahout-examples-0.9.0.2.2.0.0-2041-job)
- person HHH; 06.05.2015
Давайте продолжим обсуждение в чате.
- person HHH; 06.05.2015