Статьи по теме scrapy-spider

Вопросы по теме 'scrapy-spider'

Метод синтаксического анализа Scrapy не работает

Я убираю веб-сайт Я написал паука в scrapy, но могу извлеките цену продукта, используя это: hxs.select('//div[@class="product_list"]//div[@class="product_list_offerprice"]/text()').extract() через оболочку scrapy Но когда я пытаюсь...

1081 просмотров

05.10.2021

Scrapy, переходить только по внутренним URL-адресам, но извлекать все найденные ссылки

Я хочу получить все внешние ссылки с данного веб-сайта с помощью Scrapy. Используя следующий код, паук также сканирует внешние ссылки: from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractor...

25871 просмотров

python web-crawler scrapy scrape scrapy-spider

23.10.2021

scrapy re.match не работает найти URL-адреса в строке с помощью регулярного выражения

Я пытаюсь просканировать несколько URL в одном домене. Мне нужно указать список URL-адресов в строке. Я хочу искать регулярное выражение в строке и находить URL-адреса. Но re.match () всегда ничего не возвращает. Я тестирую свое регулярное...

1686 просмотров

regex scrapy scrapy-spider

01.11.2021

Scrapy - Как я могу получить значение src для тега script

Я пытаюсь получить значения src для тегов script с помощью Scrapy ( http://scrapy.org/ ). Я могу сделать это без проблем с изображениями: for sel in response.xpath('//img'): item = elSRC() item['src'] = sel.xpath('@src').extract()...

438 просмотров

scrapy scrapy-spider

21.10.2021

Обработка сельдерея и нескольких пауков

Я использую scrapy, и я пытаюсь использовать сельдерей для управления несколькими пауками на одной машине. У меня есть проблема (немного сложно объяснить), что пауки умножаются -> это означает, что если мой первый паук запускается, а я запускаю...

355 просмотров

python web-crawler scrapy scrapy-spider

28.11.2021

Извлечение конвейера scrapy в неправильном формате csv

Паук My Hacker News выводит все результаты в одну строку, а не по одной в каждой строке, как это можно увидеть здесь. Все в одной строке Вот мой код. import scrapy import string import urlparse from scrapy.selector import Selector from...

466 просмотров

python csv scrapy scrapy-spider

13.10.2021

Scrapy: выберите тег с неразрывным пробелом с помощью xpath

В моем scrapy spider я хочу выбрать только <p> с текстовым содержимым: item['Description'] = response.xpath('//*[@id="textepresentation"]//p[string(.)]').extract() Он работает нормально, но, к сожалению, при этом я также получаю...

1508 просмотров

web-scraping xpath scrapy scrapy-spider

21.10.2021

Проблема с Scrapy из-за мета-обновления

Я новичок в платформе Scrapy и пытаюсь сканировать веб-сайт с помощью Spider. На моем веб-сайте, когда я перехожу со страницы 1 на страницу 2, промежуточная страница добавляется с помощью Meta Refresh, которая перенаправляет ее на страницу 2. Однако...

721 просмотров

web-scraping scrapy scrapy-spider

26.09.2021

Веб-сканирование и извлечение данных с помощью scrapy

Я новичок в python, а также в scrapy. Я пытаюсь просканировать исходный URL https://www.health.com/patients/status/.This исходный URL-адрес содержит много URL-адресов. Но я хочу получить только URL-адреса, которые содержат Faci / Details / #...

347 просмотров

python-2.7 web-scraping web-crawler scrapy scrapy-spider

19.09.2021

Передача аргументов в allowed_domains в Scrapy

Я создаю краулер, который принимает вводимые пользователем данные и просматривает все ссылки на сайте. Однако мне нужно ограничить сканирование и извлечение ссылок только на ссылки из этого домена, а не на внешние домены. Я добрался туда, где мне...

3053 просмотров

python scrapy scrapy-spider

30.11.2021

Python Scrapy Получите HTML тег ‹script›

У меня есть проект, и мне нужен скрипт получения в html-коде. <script> (function() { ... / More Code Level.grade = "2"; Level.level = "1"; Level.max_line = "5"; Level.cozum = 'adım...

893 просмотров

python scrapy scrapy-spider

21.11.2021

Создание одного универсального паука scrapy и нескольких конкретных

Я пытаюсь создать один общий паук, который заботится о наиболее распространенных задачах и конкретных пауках, которые наследуют общий и объявляют переменные, специфичные для веб-сайта. Есть genericspider.py : # -*- coding: utf-8 -*- import...

339 просмотров

python scrapy scrapy-spider

09.11.2021

Очистить Kickstarter с помощью R?

Я пытался очистить Kickstarter. Однако я не получаю результата, когда пытаюсь получить URL-адреса, относящиеся к проектам. Это должен быть один из результатов:...

691 просмотров

r web-scraping screen-scraping scrapy-spider kickstarter

12.11.2021

Scrapy игнорирует содержимое второй страницы

Я написал крошечный скребок на python scrapy для анализа разных имен с веб-страницы. Страница прошла еще 4 страницы с помощью нумерации страниц. Всего имен на страницах 46, но он вычищает 36 имен. Предполагается, что парсер пропускает содержимое...

299 просмотров

python-3.x python web-scraping scrapy scrapy-spider

23.09.2021

Сканирование данных с использованием Scrapy + Selenium + PhantopJS потерянные данные

Я пытаюсь просканировать данные таблицы с http://www.sse.com.cn/assortment/stock/list/share/ , который является страницами AJAX . Мой код следующий: import scrapy class GovSpider(scrapy.Spider): name = 'gov' url =...

259 просмотров

python ajax web-crawler scrapy scrapy-spider

10.10.2021

Scrapy всегда запускает одну и ту же команду из командной строки

Я пытаюсь изучить Scrapy на BashOnUbunty в Windows 10. Я создал паука (yelprest) с помощью команды genspider, а затем напрямую создал другого паука (quotes_spider), создав файл паука (следовал официальному руководству...

196 просмотров

scrapy scrapy-spider

01.12.2021

Scrapy: как проверить и остановить сканирование

Я просматриваю список страниц, где на каждой странице есть список URL-адресов, которые мне также нужно проанализировать. Я просматриваю эти первые страницы, но я априори не знаю, когда мне остановить сканирование. Например, этот еще предстоит...

791 просмотров

web-crawler scrapy scrapy-spider

08.10.2021

использовать пользовательские настройки scrapy в scraper.py

Я хочу запустить файл scrapy с помощью scrapy runspider scrapy.py, у него нет файла настроек, как использовать пользовательские настройки, такие как CONCURRENT_REQUESTS: 1, но когда start_requests вызывается, одновременно загружая все запросы URL...

806 просмотров

python-3.x python-requests scrapy scrapy-spider

02.11.2021

Scrapy: CrawlSpider не анализирует ответ

Раньше я успешно использовал CrawlSpider. Но когда я изменил код, чтобы интегрироваться с Redis и добавить свои собственные промежуточные программы для установки UserAgent и файлов cookie, паук больше не анализирует ответы, и, таким образом, паук не...

191 просмотров

python scrapy-spider

06.11.2021

используя xpath, перейти на следующую страницу с помощью scrapy

Я создаю паука для сбора данных с веб-сайта. Это было нормально, пока я не добавил сканера с правилом, чтобы он продолжал переходить на следующие страницы. Я предполагаю, что мой xpath в Правиле неверен. Не могли бы вы помочь мне это исправить?...

268 просмотров

python-3.x xpath scrapy scrapy-spider

28.11.2021