Вопросы по теме 'lxml.html'
использование lxml для поиска буквального текста URL-ссылок
(Python 3.4.2) Во-первых, я новичок в python — больше, чем новичок, но меньше, чем средний пользователь.
Я пытаюсь отобразить буквальный текст URL-адреса на странице с помощью lxml. Я думаю, что у меня ПОЧТИ есть это, но я что-то упускаю. Я могу...
6049 просмотров
schedule
15.03.2022
Проблема с разбором html с помощью lxml с помощью xpath
Я пытаюсь проанализировать данные с интерактивного веб-сайта Google. Он отображается в JS, поэтому я использую Qt для загрузки сайта для анализа. Я считаю, что сайт загружен и отображается правильно, но по какой-то причине я получаю пустой список,...
627 просмотров
schedule
25.05.2022
Как разобрать большую искаженную HTML-страницу в Python?
Я пытаюсь проанализировать большую HTML-страницу с неправильной разметкой таблицы. В таблице около 7000-10000 строк. Проблема в том, что ни один из tr , th , td не закрыт. Итак, разметка такая:
<HTML>
<HEAD>
</HEAD>...
345 просмотров
schedule
31.05.2022
Как проверить, существует ли элемент в lxml xpath?
Я использую lxml xpath для анализа HTML-страницы в Python 3.
В качестве примера у меня есть код, который находит элемент HTML:
version_android = doc.xpath("//div[@itemprop='operatingSystems']//text()")
Отец, у меня есть запрос Mysql:...
3347 просмотров
schedule
04.07.2022
Как получить конкатенированные дочерние текстовые узлы в lxml
Это образец HTML :
<div class="wpb_text_column">
<div class="wpb_wrapper">
<p style="text-align: center;"><a href="http://somepage1.com">First text part </a></p>
<p style="text-align:...
643 просмотров
schedule
20.07.2022
Может ли кто-нибудь помочь мне понять этот код (разбор таблицы HTML в lxml, python)?
Предыстория: мне нужно написать анализатор html-таблиц на python для HTML-таблиц с различными colspan и rowspan. После некоторых исследований я наткнулся на этот драгоценный камень . Это хорошо работает для простых случаев без дурацких colspan и...
157 просмотров
schedule
27.07.2022
Расширение селекторов CSS в BeautifulSoup
Вопрос:
BeautifulSoup обеспечивает очень ограниченную поддержку селекторов CSS . Например, единственным поддерживаемым псевдоклассом является nth-of-type , и он может принимать только числовые значения — такие аргументы, как even или...
2222 просмотров
schedule
02.10.2022
TypeError: декодирование Unicode не поддерживается python
Я использую lxml.html для анализа html-файла и получения текста со страницы. Но теперь у меня есть строка с символом ' , например Florian's , из-за которой при печати вывода я получаю трассировку
parent_link_id_text =...
2827 просмотров
schedule
22.02.2023
Как я могу сохранить ‹br› как новые строки с помощью lxml.html text_content() или эквивалентного?
Я хочу сохранить теги <br> как \n при извлечении текстового содержимого из элементов lxml.
Пример кода:
fragment = '<div>This is a text node.<br/>This is another text node.<br/><br/><span>And a child...
6092 просмотров
schedule
21.12.2022
Разбор Yelp с использованием lxml — игнорировать тег html
Я пытаюсь запустить приведенный ниже бит кода, чтобы извлечь обзор Yelp.
from lxml import html
import requests
import csv
page = requests.get('http://www.yelp.com/biz/guisados-los-angeles')
review =...
329 просмотров
schedule
05.02.2023
Разбор HTML с помощью lxml - как сохранить пустой контент в результирующем списке?
Я использую lxml для анализа html-файла:
from lxml import html
tree = html.parse(myfile)
data = tree.xpath('//p/text()')
У меня 300 тегов <p>text</p> в моем html-файле, но len(data) всего 250, потому что иногда в моем html...
120 просмотров
schedule
07.06.2023