Публикации по теме 'scrapy'


Создание веб-скребка с помощью Scrapy и Python | Основы скраппи
В этой статье вы познакомитесь с основами скрапинга и получите практический опыт работы с веб-скрейпингом с помощью скрапинга веб-сайта BrainyQuote. Начало работы Сначала создайте папку на своем компьютере, где вы будете хранить свой код. Назовите этот файл QuotesScraper. Дважды щелкните файл, который вы только что создали, а затем щелкните правой кнопкой мыши (или нажмите Control + щелкните на Mac) и выберите параметр «Открыть с помощью кода Visual Studio». Установка зависимостей..

Очистите данные BoxOfficeMojo с помощью Scrapy
В качестве проекта, который я сделал для линейной регрессии фильмов под названием Лиамометр (вы видите его здесь ), я собрал данные, используя Scrapy . В этой статье будет рассказано о создании веб-краулера, который хранит в CSV-файле все названия фильмов 2017–2020 годов, перечисленные на BoxOfficeMojo. Начало работы со Scrapy (термины и настройка) Scrapy — это фреймворк, используемый для веб-скрейпинга. Webscraping извлекает данные с веб-сайтов для использования в вашем внешнем..

Вопросы по теме 'scrapy'

Как использовать CrawlSpider из scrapy для перехода по ссылке с помощью javascript onclick?
Я хочу, чтобы scrapy сканировал страницы, на которых переход к следующей ссылке выглядит так: <a href="#" onclick="return gotoPage('2');"> Next </a> Сможет ли scrapy интерпретировать этот код javascript? С расширением...
10653 просмотров

Scrapy - Следуйте RSS-ссылкам
Мне было интересно, пытался ли кто-нибудь когда-нибудь извлекать / следовать ссылкам на элементы RSS с помощью SgmlLinkExtractor / CrawlSpider. Я не могу заставить его работать ... Я использую следующее правило: rules = (...
5452 просмотров
schedule 25.10.2021

Порядок промежуточного программного обеспечения Scrapy
В документации Scrapy говорится: первое промежуточное ПО находится ближе к движку, а последнее - к загрузчику. Чтобы решить, какой порядок назначить промежуточному программному обеспечению, см. Параметр DOWNLOADER_MIDDLEWARES_BASE и...
3248 просмотров
schedule 13.10.2021

Выполнение задач Scrapy в Python
Мой скрипт Scrapy, кажется, работает нормально, когда я запускаю его в сценариях «один раз» из командной строки, но если я попытаюсь запустить код дважды в одном и том же сеансе python, я получаю эту ошибку: "ReactorNotRestartable" Почему?...
9335 просмотров
schedule 07.09.2021

Как динамически генерировать start_urls при сканировании?
Я сканирую сайт, который может содержать много start_urls , например: http://www.a.com/list_1_2_3.htm Я хочу заполнить start_urls , как [list_\d+_\d+_\d+\.htm] , и извлекать элементы из URL-адресов, например [node_\d+\.htm] , во время...
18842 просмотров
schedule 03.12.2021

scrapy разрешить все домены
Я видел это сообщение, чтобы заставить scrapy сканировать любой сайт без ограничения разрешенных доменов. Есть ли лучший способ сделать это, например, использовать регулярное выражение в переменной разрешенных доменов, например:...
8671 просмотров
schedule 22.11.2021

Код состояния scrapy и ответа: как с ним справиться?
Я использую scrapy для сканирования моей карты сайта, чтобы проверить страницы 404, 302 и 200. Но я не могу получить код ответа. Это мой код на данный момент: from scrapy.contrib.spiders import SitemapSpider class...
22663 просмотров
schedule 19.11.2021

Scrapy не очищает весь сайт
У меня проблема, из-за которой мой CrawlSpider не сканирует весь сайт. Я пытаюсь сканировать новостной сайт; он собирает около 5900 элементов и затем завершает работу по причине «закончил», но в извлеченных элементах есть большие пробелы в датах. Я...
1066 просмотров
schedule 02.12.2021

Запись в отдельные столбцы вместо разделенных запятыми для файлов csv в scrapy
Я работаю с scrapy и записываю данные, полученные с веб-страниц, в файлы CSV. Мой pipeline код: def __init__(self): self.file_name = csv.writer(open('example.csv', 'wb')) self.file_name.writerow(['Title', 'Release Date','Director'])...
1437 просмотров
schedule 27.10.2021

Python Scrapy - фильтр на основе mimetype, чтобы избежать загрузки нетекстовых файлов
У меня есть работающий проект scrapy, но он требует большой пропускной способности, поскольку пытается загрузить много двоичных файлов (zip, tar, mp3, ... и т. Д.). Я думаю, что лучшим решением является фильтрация запросов на основе HTTP-заголовка...
2299 просмотров
schedule 21.10.2021

Могу ли я использовать селен с Scrapy без фактического открытия браузера с помощью python
Я хочу выполнить сканирование Интернета с помощью scrapy и python. Я нашел несколько примеров кода в Интернете, где они используют селен с scrapy. Я мало что знаю о selenium , но знаю только то, что он автоматизирует некоторые веб-задачи. и...
2834 просмотров
schedule 02.12.2021

XPath для изображения во всплывающем окне
Я использую Scrapy для сканирования веб-страницы. Я получаю селекторы XPath с помощью расширения xpath Chrome, которое отлично работает. Я получаю все, что хочу, на странице продукта, например, описание, цену и т. Д. Если я нажимаю на маленькое...
545 просмотров
schedule 19.10.2021

Метод синтаксического анализа Scrapy не работает
Я убираю веб-сайт Я написал паука в scrapy, но могу извлеките цену продукта, используя это: hxs.select('//div[@class="product_list"]//div[@class="product_list_offerprice"]/text()').extract() через оболочку scrapy Но когда я пытаюсь...
1081 просмотров

Лучшее использование Scrapy DjangoItem с Django
Я новичок в Django / Scrapy и хорошо разбираюсь в программировании в целом. Я пытаюсь создать сайт Django, чтобы помочь мне учиться. Что я хочу сделать, так это очистить информацию о продукте с разных сайтов и сохранить ее в моей базе данных...
886 просмотров
schedule 13.10.2021

Scrapy и рамы
Мне нужно очистить данные из HTML-документов, где данные иногда находятся непосредственно внутри таблицы, а иногда внутри таблицы, которая находится внутри кадра <frameset> . Я не знаю, что, пока не получу HTTP-ответ. В настоящее время у...
2033 просмотров
schedule 22.11.2021

Две страницы с одинаковым URL. Как ползать?
Я покажу свой точный пример, но я думаю, что это может быть проблемой для общей ситуации, когда вам нужно сканировать одну страницу, URL-адрес которой направляет вас на другую страницу. Страница, которую я хочу просканировать, находится под этим...
674 просмотров
schedule 18.09.2021

фильтр дубликатов scrapy с файлом csv
Я стараюсь не очищать одну и ту же информацию более одного раза, я запускаю этого паука каждое утро, чтобы очистить задания с доски объявлений, затем копирую их в Excel и нажимаю, чтобы удалить дубликаты из списка, используя URL-адрес. Я хотел бы...
1343 просмотров
schedule 07.09.2021

почему мой scrapy всегда говорит мне, что TCP-соединение истекло
DEBUG: Retrying (failed 2 times): TCP connection timed out: 110: Connection timed out. ps: Система - ubuntu, я могу сделать это успешно: wget http://www.dmoz.org/Computers/Programming/Languages/Python/Book/ код паука:...
2770 просмотров
schedule 16.11.2021

Проект Scrapy, составление расписания
Итак, я пытаюсь очистить расписание на этой странице .. http://stats.swehockey.se/ScheduleAndResults/Schedule/3940 ..с этим кодом. from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class...
487 просмотров
schedule 28.09.2021

Очень простой пример Scrapy
Привет, у меня на Mac установлен Python Scrapy, и я пытался следовать v первый пример в их сети. Они пытались запустить команду: scrapy crawl mininova.org -o scraped_data.json -t json Я не совсем понимаю, что это значит? похоже scrapy...
23062 просмотров
schedule 05.11.2021