Анализатор XML BeautifulSoup (bs4) удаляет объекты html

посмотрите на этот пример:

# xml parser
bs4.BeautifulSoup('<price>&pound;4</price>', 'xml')

# prints:
<?xml version="1.0" encoding="utf-8"?>
<price>4</price>

# html (lxml) parser
bs4.BeautifulSoup('<span>&pound;4</span>', 'lxml')

# prints:
<html><body><span>£4</span></body></html>

Обратите внимание на знак £. Почему синтаксический анализатор XML удаляет его? Что мне сделать, чтобы он был на выходе? Мне нужен xml синтаксический анализ, потому что документ содержит несколько парных тегов, которые неправильно анализируются lxml синтаксическим анализатором (например, <link>).

uiii 13.04.2016 источник

comment

Вы должны использовать парсер xml? - Padraic Cunningham 14.04.2016

Ответы (1)

arrow_upward
0
arrow_downward

£ не является стандартным XML-объектом — вместо этого используйте, например, £. £ — это объект HTML, и его нельзя использовать без объявления (или встраивания) в DTD.

Изменить: см., например, Как мне определить ссылки на объекты HTML внутри допустимого XML-документа?

Trondster 13.04.2016

comment

Привет, спасибо за ответ. Возможно, вы правы, но BS все равно не правильно bs4.BeautifulSoup('<!DOCTYPE item [ <!ENTITY pound "£"> ]><item>£4</item>', 'xml') печатает <?xml version="1.0" encoding="utf-8"?><!DOCTYPE item><item>4</item> - uiii; 14.04.2016

comment

..Могли бы вы вместо этого использовать £ во входных данных или каким-либо другим образом массировать входной HTML-код? - Trondster; 15.04.2016

Анализатор XML BeautifulSoup (bs4) удаляет объекты html

Ответы (1)

Вопросы по теме