Я создаю корпус текстов, собранных вместе с некоторыми метаданными из HTML с помощью BeautifulSoup. Было бы очень полезно, если бы я мог вызывать Mallet из Python и моделировать темы из строк Python, а не из текстовых файлов в каталоге. Таким образом, я мог поместить n ключевых слов, найденных Маллетом, в каждый файл.
Я получаю сообщение о том, что Маллет был распознан, когда я запускаю:
from nltk.classify import mallet
from subprocess import call
mallet.config_mallet("malletdir/mallet-2.0.7/bin")
Но мне не повезло со следующими шагами, и я даже не уверен, что Mallet принимает что-либо, кроме сохраненных файлов.
Мне не удалось найти документацию, которую я действительно могу понять. Кто-нибудь видел удобоваримую документацию для этого? (Книга NLTK не попадает в Маллет). Я также был бы рад узнать о любых других средствах тематического моделирования в Python, которые я мог бы использовать без действительно глубоких знаний Python.
Извините, это мое первое родео.