Внутри самого внутреннего тега. Как добиться того, чтобы все операции форматирования текста были эффективными?

Мое требование - получать новостной контент с разных новостных сайтов ... примерно ... 250. поэтому новостной контент находится где-то в теле, я могу перейти к первому абзацу, где новостной контент основан на фрагментах / метаинфо google. но чтобы получить другие абзацы содержимого новостей, я пытаюсь подняться по дереву HTML, пока не найду разделение или тело таблицы ... но из-за этого я получаю нежелательный текст, то есть не связанный с новостью. Итак, я обнаружил ... все соответствующие новости на большинстве веб-страниц имеют одинаковый стиль или формат. Итак, есть ли способ зафиксировать все стили, происходящие в первом абзаце, а затем отфильтровать нежелательный текст, используя эту информацию о форматировании.

Я использую пакет гибкости HTML и xpath для своих требований. Спасибо.

html css-selectors html-agility-pack

Krishna Chaitanya M 28.02.2011 источник

comment

я имею в виду форматирование размера шрифта, типа шрифта и т. д. в тексте выбранного узла. - Krishna Chaitanya M 28.02.2011

comment

Находится ли информация о форматировании во входном источнике (как в @style на элемент)? Если ответ отрицательный, это не вопрос XPath. - 28.02.2011

comment

Нашел альтернативный способ решения этой проблемы, его точность 99%. Спасибо. - Krishna Chaitanya M 02.03.2011

Ответы (1)

arrow_upward
0
arrow_downward

Вам может понравиться мой ответ на следующий вопрос о SO: Использование Advanced HTML Agility Pack , похоже, что-то связано с вашим.

Simon Mourier 28.02.2011

Внутри самого внутреннего тега. Как добиться того, чтобы все операции форматирования текста были эффективными?

Ответы (1)

Вопросы по теме