как извлечь нужную мне информацию с помощью NLKT

Я хочу извлечь соответствующую информацию по нескольким темам. Например:

  • Информация о товаре
  • покупательский опыт клиента
  • рекомендация семьи или друга

На первом этапе я извлекаю информацию с одного из веб-сайтов. например :

Я думаю, что AIA предлагает более лучшее страхование жизни по сравнению с моим сравнением и сравнением компаний, и, что наиболее важно, по моему мнению, это также медицинское страхование, да, есть некоторые агенты, которые будут продавать вам планы с высокой комиссией ... если что-то случится, вы можете связаться с компанией, также можете ... лучше найти надежного агента, который не просто работает на комиссию сейчас, они могут не обслуживать вас в будущем ... спасибо, Диана ""

Затем, используя NLTK в VS2015, я попытался разделить слова.

toks = nltk.word_tokenize(text)

Используя pos_tag, я могу пометить свои токсы

postoks = nltk.tag.pos_tag(toks)

из этой части я не уверен, что мне делать? Раньше я использовал IBM Text Analytic. В этом программном обеспечении я использую для создания словаря, затем создаю некоторый шаблон, а затем анализирую данные. например :

Образец словаря: Insurance_cmp : {AIA, IMG, SABB}

Образец узора:

Insurance_cmp + Good_Feeling_Pattern

Insurance_cmp + ['покупка|Купить'] + Bad_Feeling_Pattern

Good_Feeling_Pattern = [хорошо, нравится, мило]

Bad_Feeling_Pattern = [плохо, хуже, нехорошо, сожаление]

Я пытался узнать, могу ли я смоделировать то же самое в NLKT? чанкер и создание грамматики могут помочь мне извлечь то, что я ищу? могу ли я иметь вашу идею, чтобы улучшить себя, пожалуйста?

grammar = r"""
    NBAR:
        {<NN.*|JJ>*<NN.*>}  # Nouns and Adjectives, terminated with Nouns

    NP:
        {<NBAR>}
        {<NBAR><IN><NBAR>}  # Above, connected with in/of/etc...
"""
chunker = nltk.RegexpParser(grammar)

tree = chunker.parse(postoks)

Пожалуйста, помогите мне, что может быть моим следующим шагом, чтобы достичь моей цели?


person Amir    schedule 15.06.2016    source источник


Ответы (1)


Вам просто нужно просмотреть эти видео.

или прочитайте этот блог.

person Amir    schedule 29.06.2016