Я рву на себе волосы, пытаясь разобрать RSS-канал Craigslist, чтобы извлечь информацию о местоположении.
Я использовал feedparser, чтобы разбить скрипт на записи и описания записей. К сожалению, адресная информация содержится в неправильных тегах в разделе описания.
адреса содержатся в разделе, который выглядит следующим образом:
<!-- CLTAG xstreet0=11832 se 318pl -->
<!-- CLTAG xstreet1= -->
<!-- CLTAG city=auburn -->
<!-- CLTAG region=wa -->
11832 se 318pl
Feedparser не любит эти CLTAGS. Моя попытка захватить первую строку с помощью регулярного выражения выглядела так:
addressStart = r'!-- CLTAG xstreet0='
addressEnd = r'-->'
prog = re.compile(addressStart(.*?)addressEnd)
result = prog.match(string)
...Но это не сработало. Что я делаю неправильно? вот ссылка на rss-канал, с которым я работаю, «http://seattle.craigslist.org/see/apa/index.rss»
Любая помощь приветствуется!