R- Анализ текста- Печать определенного текста, содержащего биграмму

Анализ текста с Р.

Мой набор данных — 2000 комментариев из 2000 разных опросов. Я создал Биграммы. Я проверил частотность слов, затем кластерный анализ слов с hclust(), затем ассоциацию Word с findAssocs, например, findAssocs(bigram_dtm,"long time",0.2).

Например, я вижу, что «долгое время» имеет ассоциацию 0,66 с «ощущением ожидания».

Я пытался найти его в Интернете, но пока безуспешно... Вопросы: Можно ли как-нибудь напечатать комментарии, где эти биграммы собраны вместе? Можно ли как-нибудь напечатать комментарии там, где стоит «давно»?

Спасибо,


person Robbie    schedule 21.10.2018    source источник
comment
Как организованы ваши данные? У вас есть комментарии в виде массива из 2000 строк? Если это так, вы можете использовать grep, чтобы найти, какие комментарии содержат каждую из биграмм, а какие содержат обе.   -  person G5W    schedule 22.10.2018
comment
Привет @G5W. [str(files)] возвращает: [$ глагол: Фактор с 239 уровнями...]. Извините, если не правильно объясню. Когда я импортирую файл в R, это 2000 строк, по одному комментарию в строке... Поможет ли это? Спасибо!   -  person Robbie    schedule 25.10.2018


Ответы (1)


Я думаю, что то, что вы ищете, это grep. Вы можете использовать его, чтобы получить индексы комментариев, которые вы ищете, или использовать эти индексы, чтобы получить сами комментарии.

Comments = c("I haven't seen you in a long time.",
    "There is no U in TEAM, but it does contain ME.",
    "In extreme cases, read the documentation.",
    "A big computer, a complex algorithm and a long time does not equal science.",
    "Use the source, Luke!")

grep("long time", Comments)
[1] 1 4
Comments[grep("long time", Comments)]
[1] "I haven't seen you in a long time."                                         
[2] "A big computer, a complex algorithm and a long time does not equal science."

(Некоторые комментарии украдены у fortune())

person G5W    schedule 25.10.2018