Статьи по теме scrapy

Публикации по теме 'scrapy'

Создание веб-скребка с помощью Scrapy и Python | Основы скраппи

В этой статье вы познакомитесь с основами скрапинга и получите практический опыт работы с веб-скрейпингом с помощью скрапинга веб-сайта BrainyQuote. Начало работы Сначала создайте папку на своем компьютере, где вы будете хранить свой код. Назовите этот файл QuotesScraper. Дважды щелкните файл, который вы только что создали, а затем щелкните правой кнопкой мыши (или нажмите Control + щелкните на Mac) и выберите параметр «Открыть с помощью кода Visual Studio». Установка зависимостей..

Очистите данные BoxOfficeMojo с помощью Scrapy

В качестве проекта, который я сделал для линейной регрессии фильмов под названием Лиамометр (вы видите его здесь ), я собрал данные, используя Scrapy . В этой статье будет рассказано о создании веб-краулера, который хранит в CSV-файле все названия фильмов 2017–2020 годов, перечисленные на BoxOfficeMojo. Начало работы со Scrapy (термины и настройка) Scrapy — это фреймворк, используемый для веб-скрейпинга. Webscraping извлекает данные с веб-сайтов для использования в вашем внешнем..

Вопросы по теме 'scrapy'

Как использовать CrawlSpider из scrapy для перехода по ссылке с помощью javascript onclick?

Я хочу, чтобы scrapy сканировал страницы, на которых переход к следующей ссылке выглядит так: <a href="#" onclick="return gotoPage('2');"> Next </a> Сможет ли scrapy интерпретировать этот код javascript? С расширением...

10653 просмотров

25.10.2021

Scrapy - Следуйте RSS-ссылкам

Мне было интересно, пытался ли кто-нибудь когда-нибудь извлекать / следовать ссылкам на элементы RSS с помощью SgmlLinkExtractor / CrawlSpider. Я не могу заставить его работать ... Я использую следующее правило: rules = (...

5452 просмотров

python web-crawler scrapy

25.10.2021

Порядок промежуточного программного обеспечения Scrapy

В документации Scrapy говорится: первое промежуточное ПО находится ближе к движку, а последнее - к загрузчику. Чтобы решить, какой порядок назначить промежуточному программному обеспечению, см. Параметр DOWNLOADER_MIDDLEWARES_BASE и...

3248 просмотров

python middleware scrapy

13.10.2021

Выполнение задач Scrapy в Python

Мой скрипт Scrapy, кажется, работает нормально, когда я запускаю его в сценариях «один раз» из командной строки, но если я попытаюсь запустить код дважды в одном и том же сеансе python, я получаю эту ошибку: "ReactorNotRestartable" Почему?...

9335 просмотров

python scrapy

07.09.2021

Как динамически генерировать start_urls при сканировании?

Я сканирую сайт, который может содержать много start_urls , например: http://www.a.com/list_1_2_3.htm Я хочу заполнить start_urls , как [list_\d+_\d+_\d+\.htm] , и извлекать элементы из URL-адресов, например [node_\d+\.htm] , во время...

18842 просмотров

web-scraping web-crawler scrapy

03.12.2021

scrapy разрешить все домены

Я видел это сообщение, чтобы заставить scrapy сканировать любой сайт без ограничения разрешенных доменов. Есть ли лучший способ сделать это, например, использовать регулярное выражение в переменной разрешенных доменов, например:...

8671 просмотров

python scrapy

22.11.2021

Код состояния scrapy и ответа: как с ним справиться?

Я использую scrapy для сканирования моей карты сайта, чтобы проверить страницы 404, 302 и 200. Но я не могу получить код ответа. Это мой код на данный момент: from scrapy.contrib.spiders import SitemapSpider class...

22663 просмотров

python scrapy http-status-codes

19.11.2021

Scrapy не очищает весь сайт

У меня проблема, из-за которой мой CrawlSpider не сканирует весь сайт. Я пытаюсь сканировать новостной сайт; он собирает около 5900 элементов и затем завершает работу по причине «закончил», но в извлеченных элементах есть большие пробелы в датах. Я...

1066 просмотров

python scrapy screen-scraping

02.12.2021

Запись в отдельные столбцы вместо разделенных запятыми для файлов csv в scrapy

Я работаю с scrapy и записываю данные, полученные с веб-страниц, в файлы CSV. Мой pipeline код: def __init__(self): self.file_name = csv.writer(open('example.csv', 'wb')) self.file_name.writerow(['Title', 'Release Date','Director'])...

1437 просмотров

python csv scrapy

27.10.2021

Python Scrapy - фильтр на основе mimetype, чтобы избежать загрузки нетекстовых файлов

У меня есть работающий проект scrapy, но он требует большой пропускной способности, поскольку пытается загрузить много двоичных файлов (zip, tar, mp3, ... и т. Д.). Я думаю, что лучшим решением является фильтрация запросов на основе HTTP-заголовка...

2299 просмотров

python mime-types scrapy twisted

21.10.2021

Могу ли я использовать селен с Scrapy без фактического открытия браузера с помощью python

Я хочу выполнить сканирование Интернета с помощью scrapy и python. Я нашел несколько примеров кода в Интернете, где они используют селен с scrapy. Я мало что знаю о selenium , но знаю только то, что он автоматизирует некоторые веб-задачи. и...

2834 просмотров

python selenium scrapy

02.12.2021

XPath для изображения во всплывающем окне

Я использую Scrapy для сканирования веб-страницы. Я получаю селекторы XPath с помощью расширения xpath Chrome, которое отлично работает. Я получаю все, что хочу, на странице продукта, например, описание, цену и т. Д. Если я нажимаю на маленькое...

545 просмотров

xpath scrapy xpath-2.0

19.10.2021

Метод синтаксического анализа Scrapy не работает

Я убираю веб-сайт Я написал паука в scrapy, но могу извлеките цену продукта, используя это: hxs.select('//div[@class="product_list"]//div[@class="product_list_offerprice"]/text()').extract() через оболочку scrapy Но когда я пытаюсь...

1081 просмотров

python web-scraping xpath scrapy scrapy-spider

05.10.2021

Лучшее использование Scrapy DjangoItem с Django

Я новичок в Django / Scrapy и хорошо разбираюсь в программировании в целом. Я пытаюсь создать сайт Django, чтобы помочь мне учиться. Что я хочу сделать, так это очистить информацию о продукте с разных сайтов и сохранить ее в моей базе данных...

886 просмотров

django python-2.7 scrapy

13.10.2021

Scrapy и рамы

Мне нужно очистить данные из HTML-документов, где данные иногда находятся непосредственно внутри таблицы, а иногда внутри таблицы, которая находится внутри кадра <frameset> . Я не знаю, что, пока не получу HTTP-ответ. В настоящее время у...

2033 просмотров

python web-scraping scrapy frames

22.11.2021

Две страницы с одинаковым URL. Как ползать?

Я покажу свой точный пример, но я думаю, что это может быть проблемой для общей ситуации, когда вам нужно сканировать одну страницу, URL-адрес которой направляет вас на другую страницу. Страница, которую я хочу просканировать, находится под этим...

674 просмотров

web-crawler scrapy

18.09.2021

фильтр дубликатов scrapy с файлом csv

Я стараюсь не очищать одну и ту же информацию более одного раза, я запускаю этого паука каждое утро, чтобы очистить задания с доски объявлений, затем копирую их в Excel и нажимаю, чтобы удалить дубликаты из списка, используя URL-адрес. Я хотел бы...

1343 просмотров

csv duplicates scrapy

07.09.2021

почему мой scrapy всегда говорит мне, что TCP-соединение истекло

DEBUG: Retrying (failed 2 times): TCP connection timed out: 110: Connection timed out. ps: Система - ubuntu, я могу сделать это успешно: wget http://www.dmoz.org/Computers/Programming/Languages/Python/Book/ код паука:...

2770 просмотров

scrapy

16.11.2021

Проект Scrapy, составление расписания

Итак, я пытаюсь очистить расписание на этой странице .. http://stats.swehockey.se/ScheduleAndResults/Schedule/3940 ..с этим кодом. from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class...

487 просмотров

python web-scraping xpath scrapy

28.09.2021

Очень простой пример Scrapy

Привет, у меня на Mac установлен Python Scrapy, и я пытался следовать v первый пример в их сети. Они пытались запустить команду: scrapy crawl mininova.org -o scraped_data.json -t json Я не совсем понимаю, что это значит? похоже scrapy...

23062 просмотров

python web-scraping scrapy

05.11.2021