Я пытаюсь получить значения src для тегов script с помощью Scrapy (http://scrapy.org/).
Я могу сделать это без проблем с изображениями:
for sel in response.xpath('//img'):
item = elSRC()
item['src'] = sel.xpath('@src').extract()
yield item
Пример вывода:
{"src": ["http://ecx.images-amazon.com/images/I/51UBHVgfefL._AC_SX75_.jpg"]},
Однако то же самое для тега скрипта, похоже, не работает:
for sel in response.xpath('//script'):
item = elSRC()
item['src'] = sel.xpath('@src').extract()
yield item
Пример вывода:
{"src": []},
Я вручную подтвердил, что теги сценария на рассматриваемой странице действительно имеют значения src. Я также пробовал ряд других подходов, использующих оболочку Scrapy, но безрезультатно.
Кто-нибудь еще смог получить значения src для тега script с помощью Scrapy, и если да, то как вы это сделали?
Спасибо!
sel.extract()
, чтобы проверить, как scrapy видит тег скрипта. - person paul trmbrth   schedule 25.06.2015