Scrapy - Как я могу получить значение src для тега script

Я пытаюсь получить значения src для тегов script с помощью Scrapy (http://scrapy.org/).

Я могу сделать это без проблем с изображениями:

for sel in response.xpath('//img'):
    item = elSRC()
    item['src'] = sel.xpath('@src').extract()
    yield item

Пример вывода:

{"src": ["http://ecx.images-amazon.com/images/I/51UBHVgfefL._AC_SX75_.jpg"]},

Однако то же самое для тега скрипта, похоже, не работает:

for sel in response.xpath('//script'):
        item = elSRC()
        item['src'] = sel.xpath('@src').extract()
        yield item

Пример вывода:

{"src": []},

Я вручную подтвердил, что теги сценария на рассматриваемой странице действительно имеют значения src. Я также пробовал ряд других подходов, использующих оболочку Scrapy, но безрезультатно.

Кто-нибудь еще смог получить значения src для тега script с помощью Scrapy, и если да, то как вы это сделали?

Спасибо!


person Nathan Rasch    schedule 25.06.2015    source источник
comment
попробуйте напечатать sel.extract(), чтобы проверить, как scrapy видит тег скрипта.   -  person paul trmbrth    schedule 25.06.2015


Ответы (1)


Уггг. На ужасно отформатированной странице, которую я смотрел, «src» оказалось заполненным. Комментарий Пола Трмбрта побудил меня еще раз изучить ситуацию и настроить гораздо более простую тестовую страницу для проверки моих выводов. Я считаю, что это решено. Мораль истории: используйте чистый, легкий для чтения код для целей тестирования и настройте простые среды, прежде чем приступить к работе со сложными производственными объектами.

person Nathan Rasch    schedule 25.06.2015