Автоматическая классификация текста с использованием модели n-грамм

Привет, я новичок в интеллектуальном анализе данных. Моя задача — автоматически классифицировать текстовые документы методом n-грамм.

Я не смог найти подходящие ресурсы по этой теме, пожалуйста, помогите мне, как действовать в этой теме, где я могу найти учебные пособия, основанные на классификации n-грамм.

мне нужен исходный код Java по этой теме для моего понимания.

заранее спасибо.


person wudpecker    schedule 13.11.2013    source источник


Ответы (2)


Я настоятельно рекомендую Стэнфордский онлайн-курс НЛП Дэна Джурафски и Криса Мэннинга. Глава 4 посвящена n-граммам, но все главы до нее дают большую предысторию.

В Стэнфорде также есть отличное программное обеспечение с открытым исходным кодом, которое вы можете использовать для классификации текста, от токенизации до части тегирования речи.

person Leeor    schedule 13.11.2013

я нашел лучший учебник с документацией в

http://textcat.sourceforge.net/README.txt

http://textcat.sourceforge.net/doc/index.html

person wudpecker    schedule 18.11.2013