Я пытаюсь разобрать объекты с веб-страниц, которые содержат время, место и имя. Я немного читал об обработке естественного языка и извлечении сущностей, но не уверен, что иду по неправильному пути, поэтому спрашиваю здесь.
Я еще ничего не начал реализовывать, поэтому, если определенные библиотеки с открытым исходным кодом подходят только для определенного языка, это нормально.
A lot of times the data would not be found in sentences, but instead in html structures like lists (e.g.
- 2013-02-01 - Название события - Название арены
Структура веб-страниц будет сильно отличаться (некоторые могут использовать списки, некоторые могут помещать их в таблицу и т. Д.).
Какие темы я могу изучить, чтобы узнать больше о том, как этого добиться? Существуют ли какие-либо библиотеки с открытым исходным кодом, которые учитывают структуру html при извлечении сущностей? Будет ли извлечение этих (имя, время, место) сущностей из html лучше (или даже возможно) с помощью машинного зрения, где стили CSS могут облегчить различение важных частей (имя, время, местоположение) неструктурированного текста?
Думаю, поможет любое руководство по темам / проектам с открытым исходным кодом, которые я могу исследовать.