Я хочу получить все внешние ссылки с данного веб-сайта с помощью Scrapy. Используя следующий код, паук также сканирует внешние ссылки:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor
from myproject.items import someItem
class someSpider(CrawlSpider):
name = 'crawltest'
allowed_domains = ['someurl.com']
start_urls = ['http://www.someurl.com/']
rules = (Rule (LinkExtractor(), callback="parse_obj", follow=True),
)
def parse_obj(self,response):
item = someItem()
item['url'] = response.url
return item
Что мне не хватает? Разве "allowed_domains" не мешает сканированию внешних ссылок? Если я устанавливаю "allow_domains" для LinkExtractor, он не извлекает внешние ссылки. Просто чтобы уточнить: я хочу сканировать не внутренние ссылки, а извлекать внешние ссылки. Любая помощь приветствуется!