Разбор содержимого, содержащего html-теги, с помощью XMLPullParser

Я создаю приложение для Android, используя XmlPullParser.

Как я могу получить содержимое из html, отформатированного таким образом?

<div class="content">
"Some text is here."
<br>
"some more text "<a class="link" href="adress">continues here</a>
<br>
</div>

Я хочу проанализировать весь контент следующим образом:

"Some text is here. 
 some more text continues here"

Часть «продолжает здесь» также должна быть гиперссылкой.

ДОПОЛНЕНИЕ после некоторых комментариев: HTML сначала помещается в Yahoo YQL, а YQL генерирует XML. Я использую сгенерированный файл XML в коде. Вышеупомянутая часть, которую я хочу проанализировать, взята из сгенерированного XML.


person afgonullu    schedule 04.02.2014    source источник


Ответы (2)


И HTML, и XML, несмотря на то, что в некоторых случаях они имеют общий синтаксис, различны. Я думаю, что использование XmlPullParser для этой цели не является хорошей идеей. Я рекомендую использовать для этого один из нескольких парсеров Java HTML.

person nKn    schedule 04.02.2014

XmlPullParser предназначен для работы с XML. В Интернете очень редко можно встретить хорошо структурированные XHMTL-страницы. Парсер XML ожидает очень хорошо отформатированные данные и не должен быть отказоустойчивым. С другой стороны, HTML обычно плохо организован.

Так что нет, это не очень хорошая идея. Вы должны предпочесть другие библиотеки, такие как tagsoup или geronimo.

PS: и лучшее, когда вы задаете вопрос о переполнении стека, - это попробовать что-то самостоятельно и, если заблокировано, то спросить. А не наоборот.

person Snicolas    schedule 04.02.2014
comment
Ну, на самом деле, сначала я помещаю html в Yahoo YQL, и он генерирует XML с веб-сайта. после этого я получаю этот XML и использую его в своем коде. Извините, что не было так ясно в начале. - person afgonullu; 04.02.2014
comment
Итак, попробуйте что-нибудь и спросите, когда вас заблокируют. - person Snicolas; 04.02.2014