Как сказать, что две статьи об одном и том же инциденте из разных источников одинаковы с помощью ИИ?

Как я могу сказать, если две статьи об одном и том же происшествии, но разные грамматически и логически, одинаковы или различны.

Пример:

Случай 1:

  • статья 1 (источник новостей 1): дефицит торгового баланса США в этом фискальном году вырос

  • статья 2 (источник новостей 2): дефицит торгового баланса США растет

результат: оба одинаковы

Случай 2:

  • Статья 1 (источник новостей 1): В этом году в Гарварде учатся младшие студенты.

  • Статья 2 (источник новостей 2): В этом году поступление в Гарвард для студентов усложняется.

результат: они разные.

Не слово в слово, а в целом. Если мы можем сделать смысловое сравнение, это даже лучше. Какие концепции ИИ я использую, и если кто-нибудь может поделиться информацией о том же, было бы полезно. Мне сказали, что обработка естественного языка может помочь. Пожалуйста помоги!!

PS: Скажите, пожалуйста, есть ли для этого API с открытым исходным кодом.


person sathish    schedule 23.06.2013    source источник
comment
Также взгляните на stackoverflow.com/questions/9540315/   -  person hsmit    schedule 23.06.2013


Ответы (1)


Для начала взгляните на расстояние Левенштейна или изменить расстояние. Это может помочь вам создать меру того, насколько «различны» две строки (или тексты).

Для сравнений более высокого уровня вам действительно необходимо учитывать семантику. Я думаю, что WordNet дает доступ к семантике слов, что может помочь вам сравнивать слова. см. пример

person hsmit    schedule 23.06.2013
comment
Спасибо... Я думаю, что WordNet служит моей цели. Есть ли какой-либо другой API, подобный этому? - person sathish; 23.06.2013