Связывание связанных тем IR

Как связать термины (ключевые слова), которые имеют определенную связь между собой, через текстовые документы. Примером может служить google, когда вы ищете человека, он показывает рекомендации других людей, связанных с этим человеком.

введите здесь описание изображения

На этом снимке показаны супруга, кандидат в президенты и равное положение.

Я использую метод подсчета частоты. Чем больше двух терминов встречается в одном документе, тем больше у них шансов иметь какое-либо отношение. Но это также связывает несвязанные термины, такие как метки страниц, глаголы и ссылки на страницы в текстовом документе.

Как мне его улучшить и есть ли другой простой, но надежный метод?


comment
Сейчас это можно сделать, используя графическое встраивание базы знаний.   -  person amirouche    schedule 03.06.2019


Ответы (1)


Вы должны посмотреть несколько техник

1.) Остановить фильтрацию слов: при интеллектуальном анализе текста часто встречаются два фильтрующих слова, которые обычно не очень важны, поскольку они встречаются часто. Как the, a, is и так далее. Есть предустановленные словари.

2.) TF / IDF: TF / IDF повторно взвешивают слова в зависимости от того, насколько они разделяют документы.

3.) Распознавание именованных сущностей: для вашей задачи может быть достаточно просто сосредоточиться на именах. Распознавание именованных сущностей позволяет извлекать имена из документов

4.) Линейное распределение Дирихле: LDA находит концепцию в документах. Понятие - это набор слов, которые часто встречаются вместе.

person CAFEBABE    schedule 13.01.2016