Внутри самого внутреннего тега. Как добиться того, чтобы все операции форматирования текста были эффективными?

Мое требование - получать новостной контент с разных новостных сайтов ... примерно ... 250. поэтому новостной контент находится где-то в теле, я могу перейти к первому абзацу, где новостной контент основан на фрагментах / метаинфо google. но чтобы получить другие абзацы содержимого новостей, я пытаюсь подняться по дереву HTML, пока не найду разделение или тело таблицы ... но из-за этого я получаю нежелательный текст, то есть не связанный с новостью. Итак, я обнаружил ... все соответствующие новости на большинстве веб-страниц имеют одинаковый стиль или формат. Итак, есть ли способ зафиксировать все стили, происходящие в первом абзаце, а затем отфильтровать нежелательный текст, используя эту информацию о форматировании.

Я использую пакет гибкости HTML и xpath для своих требований. Спасибо.


person Krishna Chaitanya M    schedule 28.02.2011    source источник
comment
я имею в виду форматирование размера шрифта, типа шрифта и т. д. в тексте выбранного узла.   -  person Krishna Chaitanya M    schedule 28.02.2011
comment
Находится ли информация о форматировании во входном источнике (как в @style на элемент)? Если ответ отрицательный, это не вопрос XPath.   -  person    schedule 28.02.2011
comment
Нашел альтернативный способ решения этой проблемы, его точность 99%. Спасибо.   -  person Krishna Chaitanya M    schedule 02.03.2011


Ответы (1)


Вам может понравиться мой ответ на следующий вопрос о SO: Использование Advanced HTML Agility Pack , похоже, что-то связано с вашим.

person Simon Mourier    schedule 28.02.2011