Я ищу модуль python, который поможет мне избавиться от тегов HTML, но сохранит текстовые значения. Я пробовал BeautifulSoup раньше и не мог понять, как выполнить эту простую задачу. Я попытался найти модули Python, которые могли бы это сделать, но все они, похоже, зависят от других библиотек, которые не работают в AppEngine.
Ниже приведен пример кода из библиотеки очистки Ruby, и это то, что мне нужно в Python:
require 'rubygems'
require 'sanitize'
html = '<b><a href="http://foo.com/">foo</a></b><img src="http://foo.com/bar.jpg" />'
Sanitize.clean(html) # => 'foo'
Спасибо за ваши предложения.
-e