Статьи по теме lxml.html

Вопросы по теме 'lxml.html'

использование lxml для поиска буквального текста URL-ссылок

(Python 3.4.2) Во-первых, я новичок в python — больше, чем новичок, но меньше, чем средний пользователь. Я пытаюсь отобразить буквальный текст URL-адреса на странице с помощью lxml. Я думаю, что у меня ПОЧТИ есть это, но я что-то упускаю. Я могу...

6049 просмотров

15.03.2022

Проблема с разбором html с помощью lxml с помощью xpath

Я пытаюсь проанализировать данные с интерактивного веб-сайта Google. Он отображается в JS, поэтому я использую Qt для загрузки сайта для анализа. Я считаю, что сайт загружен и отображается правильно, но по какой-то причине я получаю пустой список,...

627 просмотров

python parsing xpath lxml lxml.html

25.05.2022

Как разобрать большую искаженную HTML-страницу в Python?

Я пытаюсь проанализировать большую HTML-страницу с неправильной разметкой таблицы. В таблице около 7000-10000 строк. Проблема в том, что ни один из tr , th , td не закрыт. Итак, разметка такая: <HTML> <HEAD> </HEAD>...

345 просмотров

python html beautifulsoup html-parsing lxml.html

31.05.2022

Как проверить, существует ли элемент в lxml xpath?

Я использую lxml xpath для анализа HTML-страницы в Python 3. В качестве примера у меня есть код, который находит элемент HTML: version_android = doc.xpath("//div[@itemprop='operatingSystems']//text()") Отец, у меня есть запрос Mysql:...

3347 просмотров

python-3.x python lxml lxml.html

04.07.2022

Как получить конкатенированные дочерние текстовые узлы в lxml

Это образец HTML : <div class="wpb_text_column"> <div class="wpb_wrapper"> <p style="text-align: center;"><a href="http://somepage1.com">First text part </a></p> <p style="text-align:...

643 просмотров

xpath lxml lxml.html

20.07.2022

Может ли кто-нибудь помочь мне понять этот код (разбор таблицы HTML в lxml, python)?

Предыстория: мне нужно написать анализатор html-таблиц на python для HTML-таблиц с различными colspan и rowspan. После некоторых исследований я наткнулся на этот драгоценный камень . Это хорошо работает для простых случаев без дурацких colspan и...

157 просмотров

python-3.x html parsing lxml lxml.html

27.07.2022

Расширение селекторов CSS в BeautifulSoup

Вопрос: BeautifulSoup обеспечивает очень ограниченную поддержку селекторов CSS . Например, единственным поддерживаемым псевдоклассом является nth-of-type , и он может принимать только числовые значения — такие аргументы, как even или...

2222 просмотров

python beautifulsoup html-parsing css-selectors lxml.html

02.10.2022

TypeError: декодирование Unicode не поддерживается python

Я использую lxml.html для анализа html-файла и получения текста со страницы. Но теперь у меня есть строка с символом ' , например Florian's , из-за которой при печати вывода я получаю трассировку parent_link_id_text =...

2827 просмотров

python python-2.7 unicode-string lxml.html

22.02.2023

Как я могу сохранить ‹br› как новые строки с помощью lxml.html text_content() или эквивалентного?

Я хочу сохранить теги <br> как \n при извлечении текстового содержимого из элементов lxml. Пример кода: fragment = '<div>This is a text node.<br/>This is another text node.<br/><br/><span>And a child...

6092 просмотров

python lxml lxml.html

21.12.2022

Разбор Yelp с использованием lxml — игнорировать тег html

Я пытаюсь запустить приведенный ниже бит кода, чтобы извлечь обзор Yelp. from lxml import html import requests import csv page = requests.get('http://www.yelp.com/biz/guisados-los-angeles') review =...

329 просмотров

python web-scraping lxml yelp lxml.html

05.02.2023

Разбор HTML с помощью lxml - как сохранить пустой контент в результирующем списке?

Я использую lxml для анализа html-файла: from lxml import html tree = html.parse(myfile) data = tree.xpath('//p/text()') У меня 300 тегов <p>text</p> в моем html-файле, но len(data) всего 250, потому что иногда в моем html...

120 просмотров

python html parsing lxml lxml.html

07.06.2023