Проблема с Scrapy из-за мета-обновления

Я новичок в платформе Scrapy и пытаюсь сканировать веб-сайт с помощью Spider. На моем веб-сайте, когда я перехожу со страницы 1 на страницу 2, промежуточная страница добавляется с помощью Meta Refresh, которая перенаправляет ее на страницу 2. Однако я постоянно получаю ошибку 302 при перенаправлении. Я пробовал следить за вещами

Установка пользовательского агента на «Mozilla / 5.0 (Windows NT 6.1) AppleWebKit / 537.36 (KHTML, например, Gecko) Chrome / 56.0.2924.87 Safari / 537.36»

Установка DOWNLOAD_DELAY = 15

Установка REDIRECT_MAX_METAREFRESH_DELAY = 100

Однако я не добился успеха. Я новичок в Scrapy. Буду признателен, если кто-нибудь поможет мне указать, как решить эту проблему.

Добавление логов по запросу

2017-02-17 21:02:43 [scrapy.core.engine] INFO: Spider opened
2017-02-17 21:02:43 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pag
es/min), scraped 0 items (at 0 items/min)
2017-02-17 21:02:43 [scrapy.extensions.telnet] DEBUG: Telnet console listening o
n 127.0.0.1:6023
2017-02-17 21:02:44 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://xxxx.website.com/search-cases.htm> (referer: None)
2017-02-17 21:02:44 [quotes] INFO: http://www.xxxx.website2.com/e
services/home.page
2017-02-17 21:02:46 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (
meta refresh) to <GET http://www.xxxx.website2.com/eservices/;jsessionid=D
724B51CE14CFB9A06AB5A1C2BADC7BA?x=pQSPWmZkMdOltOc6jey5Pzm2g*gqQrsim1X*85dDjm1K*V
wIS*xP-fdT9lRZBHHOA41kK1OaAco2dC8Un6N*uJtWnK50mGmm> from <GET http://www.courtre
cords.alaska.gov/eservices/home.page>
2017-02-17 21:02:55 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (
302) to <GET http://www.xxxx.website2.com/eservices/home.page> from <GET h
ttp://www.xxxx.website2.com/eservices/;jsessionid=D724B51CE14CFB9A06AB5A1C
2BADC7BA?x=pQSPWmZkMdOltOc6jey5Pzm2g*gqQrsim1X*85dDjm1K*VwIS*xP-fdT9lRZBHHOA41kK
1OaAco2dC8Un6N*uJtWnK50mGmm>
2017-02-17 21:02:55 [scrapy.dupefilters] DEBUG: Filtered duplicate request: <GET
 http://www.xxxx.website2.com/eservices/home.page> - no more duplicates wi
ll be shown (see DUPEFILTER_DEBUG to show all duplicates)
2017-02-17 21:02:55 [scrapy.core.engine] INFO: Closing spider (finished)

** Обратите внимание, что я изменил название веб-сайта **


person Rajan Phatak    schedule 17.02.2017    source источник
comment
поделитесь журналами ошибок, пожалуйста   -  person eLRuLL    schedule 17.02.2017
comment
Это не из-за встреченного обновления ... пожалуйста, опубликуйте свои журналы обработки, чтобы мы могли помочь   -  person Umair Ayub    schedule 17.02.2017
comment
@eLRuLL Я предоставил доступ к журналам и внес изменения в фактическое название веб-сайта.   -  person Rajan Phatak    schedule 18.02.2017
comment
есть перенаправление, которое позже фильтруется (из-за дублирования запроса)   -  person eLRuLL    schedule 18.02.2017
comment
@eLRuLL Спасибо. Я сделал dont_filter = True для запроса перенаправления, и это помогло.   -  person Rajan Phatak    schedule 18.02.2017


Ответы (1)


Как отметил @eLRuLL в своем комментарии, проблема заключалась в том, что дублированный запрос фильтровался. После установки dont_filter = True для запроса перенаправления программа начала правильно парсить

person Rajan Phatak    schedule 18.02.2017