Вопросы по теме 'lxml.html'

использование lxml для поиска буквального текста URL-ссылок
(Python 3.4.2) Во-первых, я новичок в python — больше, чем новичок, но меньше, чем средний пользователь. Я пытаюсь отобразить буквальный текст URL-адреса на странице с помощью lxml. Я думаю, что у меня ПОЧТИ есть это, но я что-то упускаю. Я могу...
6049 просмотров
schedule 15.03.2022

Проблема с разбором html с помощью lxml с помощью xpath
Я пытаюсь проанализировать данные с интерактивного веб-сайта Google. Он отображается в JS, поэтому я использую Qt для загрузки сайта для анализа. Я считаю, что сайт загружен и отображается правильно, но по какой-то причине я получаю пустой список,...
627 просмотров
schedule 25.05.2022

Как разобрать большую искаженную HTML-страницу в Python?
Я пытаюсь проанализировать большую HTML-страницу с неправильной разметкой таблицы. В таблице около 7000-10000 строк. Проблема в том, что ни один из tr , th , td не закрыт. Итак, разметка такая: <HTML> <HEAD> </HEAD>...
345 просмотров

Как проверить, существует ли элемент в lxml xpath?
Я использую lxml xpath для анализа HTML-страницы в Python 3. В качестве примера у меня есть код, который находит элемент HTML: version_android = doc.xpath("//div[@itemprop='operatingSystems']//text()") Отец, у меня есть запрос Mysql:...
3347 просмотров
schedule 04.07.2022

Как получить конкатенированные дочерние текстовые узлы в lxml
Это образец HTML : <div class="wpb_text_column"> <div class="wpb_wrapper"> <p style="text-align: center;"><a href="http://somepage1.com">First text part </a></p> <p style="text-align:...
643 просмотров
schedule 20.07.2022

Может ли кто-нибудь помочь мне понять этот код (разбор таблицы HTML в lxml, python)?
Предыстория: мне нужно написать анализатор html-таблиц на python для HTML-таблиц с различными colspan и rowspan. После некоторых исследований я наткнулся на этот драгоценный камень . Это хорошо работает для простых случаев без дурацких colspan и...
157 просмотров
schedule 27.07.2022

Расширение селекторов CSS в BeautifulSoup
Вопрос: BeautifulSoup обеспечивает очень ограниченную поддержку селекторов CSS . Например, единственным поддерживаемым псевдоклассом является nth-of-type , и он может принимать только числовые значения — такие аргументы, как even или...
2222 просмотров

TypeError: декодирование Unicode не поддерживается python
Я использую lxml.html для анализа html-файла и получения текста со страницы. Но теперь у меня есть строка с символом ' , например Florian's , из-за которой при печати вывода я получаю трассировку parent_link_id_text =...
2827 просмотров

Как я могу сохранить ‹br› как новые строки с помощью lxml.html text_content() или эквивалентного?
Я хочу сохранить теги <br> как \n при извлечении текстового содержимого из элементов lxml. Пример кода: fragment = '<div>This is a text node.<br/>This is another text node.<br/><br/><span>And a child...
6092 просмотров
schedule 21.12.2022

Разбор Yelp с использованием lxml — игнорировать тег html
Я пытаюсь запустить приведенный ниже бит кода, чтобы извлечь обзор Yelp. from lxml import html import requests import csv page = requests.get('http://www.yelp.com/biz/guisados-los-angeles') review =...
329 просмотров
schedule 05.02.2023

Разбор HTML с помощью lxml - как сохранить пустой контент в результирующем списке?
Я использую lxml для анализа html-файла: from lxml import html tree = html.parse(myfile) data = tree.xpath('//p/text()') У меня 300 тегов <p>text</p> в моем html-файле, но len(data) всего 250, потому что иногда в моем html...
120 просмотров
schedule 07.06.2023