Вопросы по теме 'scraper'
Цикл Foreach умирает после одной итерации
Я экспериментировал со ScraperWiki, и вчера я смог получить список всех li в DOM. Однако сейчас я прохожу только одну итерацию.
Это мой код
$html = 'www.blah...'
$dom = new simple_html_dom();
$dom->load($html);
print_r('Starting parse');...
190 просмотров
schedule
28.10.2021
Вывод HTML из PhantomJS и Google Chrome / Firefox отличается
Я долгое время отлаживал это, и это меня полностью сбило с толку. Мне нужно сохранить рекламу на моем компьютере для рабочего проекта. Вот пример рекламы, которую я получил от CNN.com:...
1900 просмотров
schedule
15.09.2021
Facebook Scraper не видит контент
У меня есть веб-сайт http://elearning.biznesplus.pl/ , на котором возникают некоторые проблемы при сканировании Facebook .
https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Felearning.biznesplus.pl%2F
Домен перенаправляется...
329 просмотров
schedule
24.11.2021
Доступ к Metacritic API и/или парсингу
Кто-нибудь знает, где находится документация по API Metacritic/если она все еще работает. Раньше был API Metacritic по адресу https://market.mashape.com/byroredux/metacritic-v2#get-user-details , который сегодня исчез.
В противном случае я...
15094 просмотров
schedule
18.02.2022
Как извлечь JS-рендеринг HTML с помощью Selenium-webdriver и nokogiri?
Рассмотрим две веб-страницы: one и два . Сайт номер два легко парсить с помощью nokogiri, потому что он не использует JS. Однако сайт номер один нельзя очистить, используя только nokogiri. Я гуглил и искал повсюду и обнаружил, что если бы я...
516 просмотров
schedule
22.03.2022
Очистка HTML DOM с использованием PHP-класса Simple HTML DOM
У меня возникли проблемы с нацеливанием на «обычный текст» (имя автора) в этом фрагменте HTML.
У меня будет МНОГИЕ из них на странице... и я использую PHP-класс SIMPLE HTML DOM SCRAPER.
Находится здесь:...
1987 просмотров
schedule
07.04.2022
как остановить парсинг ссылок с моей php-страницы
у меня есть домашняя страница с некоторыми ссылками и почтовыми идентификаторами, мне нужно перестать очищать мои URL-адреса и почтовые идентификаторы с этой веб-страницы ... я использовал robots.txt, но большинство плохих поисковых роботов не будут...
672 просмотров
schedule
13.04.2022
Entry Widget сводит меня с ума !: Tkinter Reddit Scraper думает, что строковая запись - это числа?
Я нахожусь в середине небольшого проекта, чтобы создать tkinter gui, который выводит десять лучших сообщений из определяемого пользователем субреддита с reddit.com, используя их api. Поскольку мне нужно, чтобы сабреддит был выбран пользователем, его...
76 просмотров
schedule
01.05.2022
Как получить различные значения после добавления значений нескольких узлов в XQuery?
Ниже xml:
<mo>
<customers>
<customer cno="2222">
<cname>Charles</cname>
<street>123 Main St.</street>
<city>Wichita</city>...
138 просмотров
schedule
14.05.2022
Проблема с Python: TypeError: unhashable type: 'slice' во время очистки веб-страниц
Я пытаюсь собрать некоторую информацию с веб-сайта. Мне удалось успешно очистить текст, который я искал, но когда я пытаюсь создать функцию для добавления текстов вместе, я получаю TypeError нехешируемого типа.
Вы знаете, что здесь может...
1550 просмотров
schedule
04.06.2022
Парсинг тегов ‹TD› с помощью JSOUP
Я пытаюсь извлечь значения <TD> из следующей таблицы с помощью JSOUP:
<table class="datagrid">
<tbody><tr>
<th>Item No.</th>
<th>Name</th>...
959 просмотров
schedule
12.06.2022
Проблемы с модулем CPAN
Я пытался установить модуль WWW :: Mechanize с помощью
'cpan WWW::Mechanize'
Я не получаю ошибок в строке use WWW :: Mechanize, что означает поиск файлов, но при попытке создать его экземпляр с помощью:
$m = WWW::Mechanize->new();...
5350 просмотров
schedule
20.06.2022
Как соскрести продукты с сайта с помощью Ruby / Anemone / nokogiri
Можно ли очистить продукты с сайта электронной коммерции с помощью библиотек anemone и nokogiri в ruby?
Я понимаю, как получить нужные мне данные с каждой страницы продукта с помощью nokogiri, но я не могу понять, как заставить anemone / nokogiri...
619 просмотров
schedule
22.06.2022
может ли кто-нибудь помочь мне со скребком изображения PHP?
Когда я делаю один сайт сразу, он работает нормально, но когда я делаю больше за раз, я получаю следующую ошибку:
Предупреждение: file_get_contents(): php_network_getaddresses: ошибка getaddrinfo: Хост включен. в...
61 просмотров
schedule
25.06.2022
Двойная петля Nokogiri Xpath
То, что я пытаюсь сделать, это извлечь блок кода, содержащий td, с классом по умолчанию. Это прекрасно работает. Но тогда мне нужно разобраться в разных частях блока кода. Когда я пытаюсь сделать это со вторым вызовом xpath, он каждый раз печатает...
351 просмотров
schedule
01.09.2022
Facebook любит по запросу парсер метаконтента
вы, ребята, когда-нибудь видели, как FB очищает ссылку, которую вы публикуете на Facebook (статус, сообщение и т. д.), сразу после того, как вы вставляете ее в поле ссылки, и отображает различные метаданные, эскиз изображения, различные изображения из...
3729 просмотров
schedule
05.12.2022
очистить адреса электронной почты
fff.html - это электронное письмо с адресами электронной почты, в некоторых из них есть ссылки href mailto, а в некоторых нет, я хочу очистить их и вывести в следующем формате.
[email protected],[email protected],[email protected]
У меня есть...
4167 просмотров
schedule
18.02.2023
FF Xpather to Nokogiri Могу ли я просто скопировать и вставить?
Я делал это вручную, а потом застрял и не могу понять, почему это не работает. Я скачал xpather, и он дает мне: /html/body/center/table/tbody/tr[3]/td/table в качестве пути к элементу, который я хочу. Я вручную подтвердил, что это правильно, но...
129 просмотров
schedule
07.03.2023
Как я могу извлечь текст из HTML без использования сторонних библиотек?
_request = (HttpWebRequest)WebRequest.Create(url);
_response = (HttpWebResponse) _request.GetResponse();
StreamReader streamReader = new StreamReader(_response.GetResponseStream());
string text = streamReader.ReadToEnd();
Текст с html-тегами....
3513 просмотров
schedule
13.10.2022
PHP очищает удаленные изображения, у которых нет расширений
Я разработал парсер изображений, который будет собирать определенные изображения с удаленных сайтов и отображать их при вставке в текстовое поле. Логика включает поиск изображений, оканчивающихся на .jpg .jpeg. png и т. д.
Я столкнулся с...
222 просмотров
schedule
10.09.2023