Вопросы по теме 'scrapy-spider'

Метод синтаксического анализа Scrapy не работает
Я убираю веб-сайт Я написал паука в scrapy, но могу извлеките цену продукта, используя это: hxs.select('//div[@class="product_list"]//div[@class="product_list_offerprice"]/text()').extract() через оболочку scrapy Но когда я пытаюсь...
1081 просмотров

Scrapy, переходить только по внутренним URL-адресам, но извлекать все найденные ссылки
Я хочу получить все внешние ссылки с данного веб-сайта с помощью Scrapy. Используя следующий код, паук также сканирует внешние ссылки: from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractor...
25871 просмотров

scrapy re.match не работает найти URL-адреса в строке с помощью регулярного выражения
Я пытаюсь просканировать несколько URL в одном домене. Мне нужно указать список URL-адресов в строке. Я хочу искать регулярное выражение в строке и находить URL-адреса. Но re.match () всегда ничего не возвращает. Я тестирую свое регулярное...
1686 просмотров
schedule 01.11.2021

Scrapy - Как я могу получить значение src для тега script
Я пытаюсь получить значения src для тегов script с помощью Scrapy ( http://scrapy.org/ ). Я могу сделать это без проблем с изображениями: for sel in response.xpath('//img'): item = elSRC() item['src'] = sel.xpath('@src').extract()...
438 просмотров
schedule 21.10.2021

Обработка сельдерея и нескольких пауков
Я использую scrapy, и я пытаюсь использовать сельдерей для управления несколькими пауками на одной машине. У меня есть проблема (немного сложно объяснить), что пауки умножаются -> это означает, что если мой первый паук запускается, а я запускаю...
355 просмотров
schedule 28.11.2021

Извлечение конвейера scrapy в неправильном формате csv
Паук My Hacker News выводит все результаты в одну строку, а не по одной в каждой строке, как это можно увидеть здесь. Все в одной строке Вот мой код. import scrapy import string import urlparse from scrapy.selector import Selector from...
466 просмотров
schedule 13.10.2021

Scrapy: выберите тег с неразрывным пробелом с помощью xpath
В моем scrapy spider я хочу выбрать только <p> с текстовым содержимым: item['Description'] = response.xpath('//*[@id="textepresentation"]//p[string(.)]').extract() Он работает нормально, но, к сожалению, при этом я также получаю...
1508 просмотров
schedule 21.10.2021

Проблема с Scrapy из-за мета-обновления
Я новичок в платформе Scrapy и пытаюсь сканировать веб-сайт с помощью Spider. На моем веб-сайте, когда я перехожу со страницы 1 на страницу 2, промежуточная страница добавляется с помощью Meta Refresh, которая перенаправляет ее на страницу 2. Однако...
721 просмотров
schedule 26.09.2021

Веб-сканирование и извлечение данных с помощью scrapy
Я новичок в python, а также в scrapy. Я пытаюсь просканировать исходный URL https://www.health.com/patients/status/.This исходный URL-адрес содержит много URL-адресов. Но я хочу получить только URL-адреса, которые содержат Faci / Details / #...
347 просмотров

Передача аргументов в allowed_domains в Scrapy
Я создаю краулер, который принимает вводимые пользователем данные и просматривает все ссылки на сайте. Однако мне нужно ограничить сканирование и извлечение ссылок только на ссылки из этого домена, а не на внешние домены. Я добрался туда, где мне...
3053 просмотров
schedule 30.11.2021

Python Scrapy Получите HTML тег ‹script›
У меня есть проект, и мне нужен скрипт получения в html-коде. <script> (function() { ... / More Code Level.grade = "2"; Level.level = "1"; Level.max_line = "5"; Level.cozum = 'adım...
893 просмотров
schedule 21.11.2021

Создание одного универсального паука scrapy и нескольких конкретных
Я пытаюсь создать один общий паук, который заботится о наиболее распространенных задачах и конкретных пауках, которые наследуют общий и объявляют переменные, специфичные для веб-сайта. Есть genericspider.py : # -*- coding: utf-8 -*- import...
339 просмотров
schedule 09.11.2021

Очистить Kickstarter с помощью R?
Я пытался очистить Kickstarter. Однако я не получаю результата, когда пытаюсь получить URL-адреса, относящиеся к проектам. Это должен быть один из результатов:...
691 просмотров

Scrapy игнорирует содержимое второй страницы
Я написал крошечный скребок на python scrapy для анализа разных имен с веб-страницы. Страница прошла еще 4 страницы с помощью нумерации страниц. Всего имен на страницах 46, но он вычищает 36 имен. Предполагается, что парсер пропускает содержимое...
299 просмотров

Сканирование данных с использованием Scrapy + Selenium + PhantopJS потерянные данные
Я пытаюсь просканировать данные таблицы с http://www.sse.com.cn/assortment/stock/list/share/ , который является страницами AJAX . Мой код следующий: import scrapy class GovSpider(scrapy.Spider): name = 'gov' url =...
259 просмотров

Scrapy всегда запускает одну и ту же команду из командной строки
Я пытаюсь изучить Scrapy на BashOnUbunty в Windows 10. Я создал паука (yelprest) с помощью команды genspider, а затем напрямую создал другого паука (quotes_spider), создав файл паука (следовал официальному руководству...
196 просмотров
schedule 01.12.2021

Scrapy: как проверить и остановить сканирование
Я просматриваю список страниц, где на каждой странице есть список URL-адресов, которые мне также нужно проанализировать. Я просматриваю эти первые страницы, но я априори не знаю, когда мне остановить сканирование. Например, этот еще предстоит...
791 просмотров
schedule 08.10.2021

использовать пользовательские настройки scrapy в scraper.py
Я хочу запустить файл scrapy с помощью scrapy runspider scrapy.py, у него нет файла настроек, как использовать пользовательские настройки, такие как CONCURRENT_REQUESTS: 1, но когда start_requests вызывается, одновременно загружая все запросы URL...
806 просмотров

Scrapy: CrawlSpider не анализирует ответ
Раньше я успешно использовал CrawlSpider. Но когда я изменил код, чтобы интегрироваться с Redis и добавить свои собственные промежуточные программы для установки UserAgent и файлов cookie, паук больше не анализирует ответы, и, таким образом, паук не...
191 просмотров
schedule 06.11.2021

используя xpath, перейти на следующую страницу с помощью scrapy
Я создаю паука для сбора данных с веб-сайта. Это было нормально, пока я не добавил сканера с правилом, чтобы он продолжал переходить на следующие страницы. Я предполагаю, что мой xpath в Правиле неверен. Не могли бы вы помочь мне это исправить?...
268 просмотров
schedule 28.11.2021