Мне нужно определить границы предложений в HTML. Существует множество программ для определения границ предложений (я использую java.text.BreakIterator), но все они предполагают обычный текст. HTML богаче этого и включает в себя некоторые подсказки о том, где прерываются предложения.
Например, <p>, <ul>/<li>, <td>
и другие теги отмечают границы предложения или, по крайней мере, указывают, что предложение, вероятно, не выходит за их пределы. <b>, <i>, <em>, <span>, <a>
и некоторые другие теги могут появляться внутри предложения.
Кто-нибудь знает о каком-либо программном обеспечении, которое использует разметку HTML в дополнение к обычным материалам NLP для определения границ предложений?