Публикации по теме 'scrapy'
Создание веб-скребка с помощью Scrapy и Python | Основы скраппи
В этой статье вы познакомитесь с основами скрапинга и получите практический опыт работы с веб-скрейпингом с помощью скрапинга веб-сайта BrainyQuote.
Начало работы
Сначала создайте папку на своем компьютере, где вы будете хранить свой код. Назовите этот файл QuotesScraper. Дважды щелкните файл, который вы только что создали, а затем щелкните правой кнопкой мыши (или нажмите Control + щелкните на Mac) и выберите параметр «Открыть с помощью кода Visual Studio».
Установка зависимостей..
Очистите данные BoxOfficeMojo с помощью Scrapy
В качестве проекта, который я сделал для линейной регрессии фильмов под названием Лиамометр (вы видите его здесь ), я собрал данные, используя Scrapy . В этой статье будет рассказано о создании веб-краулера, который хранит в CSV-файле все названия фильмов 2017–2020 годов, перечисленные на BoxOfficeMojo.
Начало работы со Scrapy (термины и настройка)
Scrapy — это фреймворк, используемый для веб-скрейпинга. Webscraping извлекает данные с веб-сайтов для использования в вашем внешнем..
Вопросы по теме 'scrapy'
Как использовать CrawlSpider из scrapy для перехода по ссылке с помощью javascript onclick?
Я хочу, чтобы scrapy сканировал страницы, на которых переход к следующей ссылке выглядит так:
<a href="#" onclick="return gotoPage('2');"> Next </a>
Сможет ли scrapy интерпретировать этот код javascript?
С расширением...
10653 просмотров
schedule
25.10.2021
Scrapy - Следуйте RSS-ссылкам
Мне было интересно, пытался ли кто-нибудь когда-нибудь извлекать / следовать ссылкам на элементы RSS с помощью SgmlLinkExtractor / CrawlSpider. Я не могу заставить его работать ...
Я использую следующее правило:
rules = (...
5452 просмотров
schedule
25.10.2021
Порядок промежуточного программного обеспечения Scrapy
В документации Scrapy говорится:
первое промежуточное ПО находится ближе к движку, а последнее - к загрузчику.
Чтобы решить, какой порядок назначить промежуточному программному обеспечению, см. Параметр DOWNLOADER_MIDDLEWARES_BASE и...
3248 просмотров
schedule
13.10.2021
Выполнение задач Scrapy в Python
Мой скрипт Scrapy, кажется, работает нормально, когда я запускаю его в сценариях «один раз» из командной строки, но если я попытаюсь запустить код дважды в одном и том же сеансе python, я получаю эту ошибку:
"ReactorNotRestartable"
Почему?...
9335 просмотров
schedule
07.09.2021
Как динамически генерировать start_urls при сканировании?
Я сканирую сайт, который может содержать много start_urls , например:
http://www.a.com/list_1_2_3.htm
Я хочу заполнить start_urls , как [list_\d+_\d+_\d+\.htm] , и извлекать элементы из URL-адресов, например [node_\d+\.htm] , во время...
18842 просмотров
schedule
03.12.2021
scrapy разрешить все домены
Я видел это сообщение, чтобы заставить scrapy сканировать любой сайт без ограничения разрешенных доменов.
Есть ли лучший способ сделать это, например, использовать регулярное выражение в переменной разрешенных доменов, например:...
8671 просмотров
schedule
22.11.2021
Код состояния scrapy и ответа: как с ним справиться?
Я использую scrapy для сканирования моей карты сайта, чтобы проверить страницы 404, 302 и 200. Но я не могу получить код ответа. Это мой код на данный момент:
from scrapy.contrib.spiders import SitemapSpider
class...
22663 просмотров
schedule
19.11.2021
Scrapy не очищает весь сайт
У меня проблема, из-за которой мой CrawlSpider не сканирует весь сайт. Я пытаюсь сканировать новостной сайт; он собирает около 5900 элементов и затем завершает работу по причине «закончил», но в извлеченных элементах есть большие пробелы в датах. Я...
1066 просмотров
schedule
02.12.2021
Запись в отдельные столбцы вместо разделенных запятыми для файлов csv в scrapy
Я работаю с scrapy и записываю данные, полученные с веб-страниц, в файлы CSV.
Мой pipeline код:
def __init__(self):
self.file_name = csv.writer(open('example.csv', 'wb'))
self.file_name.writerow(['Title', 'Release Date','Director'])...
1437 просмотров
schedule
27.10.2021
Python Scrapy - фильтр на основе mimetype, чтобы избежать загрузки нетекстовых файлов
У меня есть работающий проект scrapy, но он требует большой пропускной способности, поскольку пытается загрузить много двоичных файлов (zip, tar, mp3, ... и т. Д.).
Я думаю, что лучшим решением является фильтрация запросов на основе HTTP-заголовка...
2299 просмотров
schedule
21.10.2021
Могу ли я использовать селен с Scrapy без фактического открытия браузера с помощью python
Я хочу выполнить сканирование Интернета с помощью scrapy и python. Я нашел несколько примеров кода в Интернете, где они используют селен с scrapy.
Я мало что знаю о selenium , но знаю только то, что он автоматизирует некоторые веб-задачи. и...
2834 просмотров
schedule
02.12.2021
XPath для изображения во всплывающем окне
Я использую Scrapy для сканирования веб-страницы. Я получаю селекторы XPath с помощью расширения xpath Chrome, которое отлично работает. Я получаю все, что хочу, на странице продукта, например, описание, цену и т. Д.
Если я нажимаю на маленькое...
545 просмотров
schedule
19.10.2021
Метод синтаксического анализа Scrapy не работает
Я убираю веб-сайт Я написал паука в scrapy, но могу извлеките цену продукта, используя это:
hxs.select('//div[@class="product_list"]//div[@class="product_list_offerprice"]/text()').extract()
через оболочку scrapy
Но когда я пытаюсь...
1081 просмотров
schedule
05.10.2021
Лучшее использование Scrapy DjangoItem с Django
Я новичок в Django / Scrapy и хорошо разбираюсь в программировании в целом. Я пытаюсь создать сайт Django, чтобы помочь мне учиться.
Что я хочу сделать, так это очистить информацию о продукте с разных сайтов и сохранить ее в моей базе данных...
886 просмотров
schedule
13.10.2021
Scrapy и рамы
Мне нужно очистить данные из HTML-документов, где данные иногда находятся непосредственно внутри таблицы, а иногда внутри таблицы, которая находится внутри кадра <frameset> . Я не знаю, что, пока не получу HTTP-ответ.
В настоящее время у...
2033 просмотров
schedule
22.11.2021
Две страницы с одинаковым URL. Как ползать?
Я покажу свой точный пример, но я думаю, что это может быть проблемой для общей ситуации, когда вам нужно сканировать одну страницу, URL-адрес которой направляет вас на другую страницу.
Страница, которую я хочу просканировать, находится под этим...
674 просмотров
schedule
18.09.2021
фильтр дубликатов scrapy с файлом csv
Я стараюсь не очищать одну и ту же информацию более одного раза, я запускаю этого паука каждое утро, чтобы очистить задания с доски объявлений, затем копирую их в Excel и нажимаю, чтобы удалить дубликаты из списка, используя URL-адрес. Я хотел бы...
1343 просмотров
schedule
07.09.2021
почему мой scrapy всегда говорит мне, что TCP-соединение истекло
DEBUG: Retrying
(failed 2 times): TCP connection timed out: 110: Connection timed out.
ps: Система - ubuntu, я могу сделать это успешно:
wget http://www.dmoz.org/Computers/Programming/Languages/Python/Book/
код паука:...
2770 просмотров
schedule
16.11.2021
Проект Scrapy, составление расписания
Итак, я пытаюсь очистить расписание на этой странице .. http://stats.swehockey.se/ScheduleAndResults/Schedule/3940
..с этим кодом.
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class...
487 просмотров
schedule
28.09.2021
Очень простой пример Scrapy
Привет, у меня на Mac установлен Python Scrapy, и я пытался следовать v первый пример в их сети.
Они пытались запустить команду:
scrapy crawl mininova.org -o scraped_data.json -t json
Я не совсем понимаю, что это значит? похоже scrapy...
23062 просмотров
schedule
05.11.2021