Публикации по теме 'scrape'


Очистка данных при изменении URL-адреса в зависимости от поискового запроса
Ладно, не знал, с чего начать и что делать со своим первым проектом. Я люблю слишком много вещей, и после долгих размышлений я решил, что сейчас самое время воплотить свою страсть в жизнь — теннис! Я хотел узнать рейтинг игрока в течение года, начал искать в Интернете разные сайты и нашел https://www.atptour.com/ , который является официальным сайтом. Тонны информации, но я хотел только одного рейтинга! все хорошо, готов взяться за дело и начать парсить паутину, но! Я понял, что у..

Вопросы по теме 'scrape'

Удаленное сканирование страницы и получение наиболее релевантного названия или описания изображений с помощью XPath
То, что я собираюсь делать, по сути то же самое, что и кнопка Tweet или кнопка Facebook Share / Like, а именно очистка страницы и наиболее подходящего заголовка для фрагмента данных. Лучший пример, который я могу придумать, - это когда вы находитесь...
1091 просмотров
schedule 03.12.2021

Facebook URL Linter выдает ошибку при синтаксическом анализе входного URL, данные не были извлечены
Раньше я не задавал вопросов на форумах, но на этот раз у меня нет другого решения ... Линтер URL Facebook выдает следующее сообщение «Ошибка при анализе входного URL, данные не были извлечены» по этому URL: http://phrasesbox.com/test.html Но...
729 просмотров

Вывод HTML из PhantomJS и Google Chrome / Firefox отличается
Я долгое время отлаживал это, и это меня полностью сбило с толку. Мне нужно сохранить рекламу на моем компьютере для рабочего проекта. Вот пример рекламы, которую я получил от CNN.com:...
1900 просмотров
schedule 15.09.2021

Как пропустить часть кода, когда загрузка занимает слишком много времени
Кто-то ответил на мой вопрос для Java , и я в основном использую предыдущий ответ, предоставленный @enderland, здесь . Я использую веб-браузер, и в целом он работает хорошо, но я часто сталкиваюсь с «ошибками времени выполнения». Я хочу...
2061 просмотров

Scrapy, переходить только по внутренним URL-адресам, но извлекать все найденные ссылки
Я хочу получить все внешние ссылки с данного веб-сайта с помощью Scrapy. Используя следующий код, паук также сканирует внешние ссылки: from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractor...
25871 просмотров

Facebook Scraper не видит контент
У меня есть веб-сайт http://elearning.biznesplus.pl/ , на котором возникают некоторые проблемы при сканировании Facebook . https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Felearning.biznesplus.pl%2F Домен перенаправляется...
329 просмотров

Сбор данных с data.gov.uk / Regular Expression
Я пытаюсь понять, какое регулярное выражение мне следует использовать для очистки некоторых данных с веб-сайта gov.uk. В основном я использую file_get_contents по следующему URL-адресу:...
150 просмотров
schedule 24.11.2021

preg_match не работает скрипт php и java
Мне нужно извлечь значение (значение идентификатора) с веб-страницы html. это значение включено в код JavaScript. мой парсер php › <?php if (isset($_POST['submit'])) { $handle = fopen($_POST['website_url'], "r");...
37 просмотров
schedule 16.10.2021

Python Scraper Не удалось очистить img src
Я не могу очистить изображения с веб-сайта www.kissmanga.com. Я использую Python3 и библиотеки Requests и Beautifulsoup. Теги очищенных изображений дают пустой «src». СРЦ: from bs4 import BeautifulSoup import requests scraper =...
2538 просмотров

Доступ к Metacritic API и/или парсингу
Кто-нибудь знает, где находится документация по API Metacritic/если она все еще работает. Раньше был API Metacritic по адресу https://market.mashape.com/byroredux/metacritic-v2#get-user-details , который сегодня исчез. В противном случае я...
15094 просмотров
schedule 18.02.2022

Может ли Anemone сканировать html-файлы, хранящиеся локально на моем жестком диске?
Я надеюсь собрать воедино несколько десятков тысяч страниц правительственных данных (в нескольких тысячах папок), находящихся в сети, и поместить их все в один файл. Чтобы ускорить процесс, я решил сначала загрузить сайт на свой жесткий диск, прежде...
542 просмотров

Как узнать номер последней страницы веб-сайта в веб-скрапе в BeautifulSoup?
Я собираю данные с флипкарта, где я хочу собрать все названия, цены и рейтинги продуктов. Поэтому я хочу очистить всю необходимую информацию со всех страниц. По этой ссылке 11 страниц:...
692 просмотров
schedule 10.05.2022

URL-адрес PHP и AJAX получает данные
У меня проблема с очисткой URL-адреса, если я использую инструменты разработчика Chrome, я вижу URL-адрес и предварительно просматриваю содержимое, но если я намерен открыть URL-адрес из браузера, верните мне 404 не найдено. Это URL с данными AJAX....
1034 просмотров
schedule 01.06.2022

Парсинг тегов ‹TD› с помощью JSOUP
Я пытаюсь извлечь значения <TD> из следующей таблицы с помощью JSOUP: <table class="datagrid"> <tbody><tr> <th>Item No.</th> <th>Name</th>...
959 просмотров
schedule 12.06.2022

Получение цены от Amazon с помощью Xpath
на следующей странице: http://www.amazon.com/Jessica-Simpson- Womens-Double-Breasted/dp/B00K65ZMCA/ref=sr '//span[@id="priceblock_ourprice"]' 4_mc/185-0705108-6790969?s=apparel&ie=UTF8&qid=1413083859&sr=1-4 Я пытаюсь получить цену с помощью...
2753 просмотров
schedule 13.06.2022

Python Selenium – «Невозможно найти элемент» после того, как он стал видимым
Мне требуется ваша помощь. Я пытаюсь очистить некоторые данные от tripadvisor, используя Selenium в Python 2.7. Однако я застреваю в одном месте. Перейдя на нужную страницу, я пытаюсь отфильтровать отели по определенным ценам. Для этого вы...
4761 просмотров

C # и Xpath - возвращайте результат с использованием Node-Set и строкового типа в одном запросе Xpath
В проекте я использую Xpath для очистки цены. В этом случае у меня может быть 2 варианта, как получить цену, указанную в следующем запросе: var xpath =...
28 просмотров
schedule 09.07.2022

Как я могу лучше всего изолировать 2 разных немаркированных фрагмента html, используя красивый суп для печати в CSV?
В предисловии скажу, что я новичок в Python, и я впервые использую BeautifulSoup. Любой вклад приветствуется. Я пытаюсь извлечь все названия компаний и адреса электронной почты с этого сайта . Есть 3 уровня ссылок для обхода (список страниц в...
111 просмотров

Очистите URL-адрес и используйте его для LWP Perl.
Итак, я знаю, как сделать запрос на получение LWP с помощью Perl в цикле. Но я хотел бы знать, возможно ли очистить URL-адрес с веб-сайта и автоматически добавить его в URL-адрес для посещения в цикле? #!usr/bin/perl for ($i=0;$i<200;$i++) {...
145 просмотров
schedule 01.08.2022

Сколько результатов Google разрешает парсить по запросу?
Следующий PHP-код работает нормально, но когда он используется для очистки 1000 результатов Google по указанному ключевому слову, он возвращает только 100 результатов. Есть ли у Google ограничение на возвращаемые результаты или есть другая проблема?...
5787 просмотров
schedule 16.08.2022