Я хочу извлечь соответствующую информацию по нескольким темам. Например:
- Информация о товаре
- покупательский опыт клиента
- рекомендация семьи или друга
На первом этапе я извлекаю информацию с одного из веб-сайтов. например :
Я думаю, что AIA предлагает более лучшее страхование жизни по сравнению с моим сравнением и сравнением компаний, и, что наиболее важно, по моему мнению, это также медицинское страхование, да, есть некоторые агенты, которые будут продавать вам планы с высокой комиссией ... если что-то случится, вы можете связаться с компанией, также можете ... лучше найти надежного агента, который не просто работает на комиссию сейчас, они могут не обслуживать вас в будущем ... спасибо, Диана ""
Затем, используя NLTK в VS2015, я попытался разделить слова.
toks = nltk.word_tokenize(text)
Используя pos_tag, я могу пометить свои токсы
postoks = nltk.tag.pos_tag(toks)
из этой части я не уверен, что мне делать? Раньше я использовал IBM Text Analytic. В этом программном обеспечении я использую для создания словаря, затем создаю некоторый шаблон, а затем анализирую данные. например :
Образец словаря: Insurance_cmp : {AIA, IMG, SABB}
Образец узора:
Insurance_cmp + Good_Feeling_Pattern
Insurance_cmp + ['покупка|Купить'] + Bad_Feeling_Pattern
Good_Feeling_Pattern = [хорошо, нравится, мило]
Bad_Feeling_Pattern = [плохо, хуже, нехорошо, сожаление]
Я пытался узнать, могу ли я смоделировать то же самое в NLKT? чанкер и создание грамматики могут помочь мне извлечь то, что я ищу? могу ли я иметь вашу идею, чтобы улучшить себя, пожалуйста?
grammar = r"""
NBAR:
{<NN.*|JJ>*<NN.*>} # Nouns and Adjectives, terminated with Nouns
NP:
{<NBAR>}
{<NBAR><IN><NBAR>} # Above, connected with in/of/etc...
"""
chunker = nltk.RegexpParser(grammar)
tree = chunker.parse(postoks)
Пожалуйста, помогите мне, что может быть моим следующим шагом, чтобы достичь моей цели?