Мое требование - получать новостной контент с разных новостных сайтов ... примерно ... 250. поэтому новостной контент находится где-то в теле, я могу перейти к первому абзацу, где новостной контент основан на фрагментах / метаинфо google. но чтобы получить другие абзацы содержимого новостей, я пытаюсь подняться по дереву HTML, пока не найду разделение или тело таблицы ... но из-за этого я получаю нежелательный текст, то есть не связанный с новостью. Итак, я обнаружил ... все соответствующие новости на большинстве веб-страниц имеют одинаковый стиль или формат. Итак, есть ли способ зафиксировать все стили, происходящие в первом абзаце, а затем отфильтровать нежелательный текст, используя эту информацию о форматировании.
Я использую пакет гибкости HTML и xpath для своих требований. Спасибо.
@style
на элемент)? Если ответ отрицательный, это не вопрос XPath. - person   schedule 28.02.2011