Я использую lxml для анализа html-файла:
from lxml import html
tree = html.parse(myfile)
data = tree.xpath('//p/text()')
У меня 300 тегов <p>text</p>
в моем html-файле, но len(data)
всего 250, потому что иногда в моем html есть <p></p>
. Я хочу, чтобы они были включены в data
как 'nan'
или ''
.
Любые предложения о том, как это сделать?