Вопросы по теме 'scraper'

Цикл Foreach умирает после одной итерации
Я экспериментировал со ScraperWiki, и вчера я смог получить список всех li в DOM. Однако сейчас я прохожу только одну итерацию. Это мой код $html = 'www.blah...' $dom = new simple_html_dom(); $dom->load($html); print_r('Starting parse');...
190 просмотров
schedule 28.10.2021

Вывод HTML из PhantomJS и Google Chrome / Firefox отличается
Я долгое время отлаживал это, и это меня полностью сбило с толку. Мне нужно сохранить рекламу на моем компьютере для рабочего проекта. Вот пример рекламы, которую я получил от CNN.com:...
1900 просмотров
schedule 15.09.2021

Facebook Scraper не видит контент
У меня есть веб-сайт http://elearning.biznesplus.pl/ , на котором возникают некоторые проблемы при сканировании Facebook . https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Felearning.biznesplus.pl%2F Домен перенаправляется...
329 просмотров

Доступ к Metacritic API и/или парсингу
Кто-нибудь знает, где находится документация по API Metacritic/если она все еще работает. Раньше был API Metacritic по адресу https://market.mashape.com/byroredux/metacritic-v2#get-user-details , который сегодня исчез. В противном случае я...
15094 просмотров
schedule 18.02.2022

Как извлечь JS-рендеринг HTML с помощью Selenium-webdriver и nokogiri?
Рассмотрим две веб-страницы: one и два . Сайт номер два легко парсить с помощью nokogiri, потому что он не использует JS. Однако сайт номер один нельзя очистить, используя только nokogiri. Я гуглил и искал повсюду и обнаружил, что если бы я...
516 просмотров

Очистка HTML DOM с использованием PHP-класса Simple HTML DOM
У меня возникли проблемы с нацеливанием на «обычный текст» (имя автора) в этом фрагменте HTML. У меня будет МНОГИЕ из них на странице... и я использую PHP-класс SIMPLE HTML DOM SCRAPER. Находится здесь:...
1987 просмотров
schedule 07.04.2022

как остановить парсинг ссылок с моей php-страницы
у меня есть домашняя страница с некоторыми ссылками и почтовыми идентификаторами, мне нужно перестать очищать мои URL-адреса и почтовые идентификаторы с этой веб-страницы ... я использовал robots.txt, но большинство плохих поисковых роботов не будут...
672 просмотров
schedule 13.04.2022

Entry Widget сводит меня с ума !: Tkinter Reddit Scraper думает, что строковая запись - это числа?
Я нахожусь в середине небольшого проекта, чтобы создать tkinter gui, который выводит десять лучших сообщений из определяемого пользователем субреддита с reddit.com, используя их api. Поскольку мне нужно, чтобы сабреддит был выбран пользователем, его...
76 просмотров

Как получить различные значения после добавления значений нескольких узлов в XQuery?
Ниже xml: <mo> <customers> <customer cno="2222"> <cname>Charles</cname> <street>123 Main St.</street> <city>Wichita</city>...
138 просмотров
schedule 14.05.2022

Проблема с Python: TypeError: unhashable type: 'slice' во время очистки веб-страниц
Я пытаюсь собрать некоторую информацию с веб-сайта. Мне удалось успешно очистить текст, который я искал, но когда я пытаюсь создать функцию для добавления текстов вместе, я получаю TypeError нехешируемого типа. Вы знаете, что здесь может...
1550 просмотров
schedule 04.06.2022

Парсинг тегов ‹TD› с помощью JSOUP
Я пытаюсь извлечь значения <TD> из следующей таблицы с помощью JSOUP: <table class="datagrid"> <tbody><tr> <th>Item No.</th> <th>Name</th>...
959 просмотров
schedule 12.06.2022

Проблемы с модулем CPAN
Я пытался установить модуль WWW :: Mechanize с помощью 'cpan WWW::Mechanize' Я не получаю ошибок в строке use WWW :: Mechanize, что означает поиск файлов, но при попытке создать его экземпляр с помощью: $m = WWW::Mechanize->new();...
5350 просмотров
schedule 20.06.2022

Как соскрести продукты с сайта с помощью Ruby / Anemone / nokogiri
Можно ли очистить продукты с сайта электронной коммерции с помощью библиотек anemone и nokogiri в ruby? Я понимаю, как получить нужные мне данные с каждой страницы продукта с помощью nokogiri, но я не могу понять, как заставить anemone / nokogiri...
619 просмотров
schedule 22.06.2022

может ли кто-нибудь помочь мне со скребком изображения PHP?
Когда я делаю один сайт сразу, он работает нормально, но когда я делаю больше за раз, я получаю следующую ошибку: Предупреждение: file_get_contents(): php_network_getaddresses: ошибка getaddrinfo: Хост включен. в...
61 просмотров
schedule 25.06.2022

Двойная петля Nokogiri Xpath
То, что я пытаюсь сделать, это извлечь блок кода, содержащий td, с классом по умолчанию. Это прекрасно работает. Но тогда мне нужно разобраться в разных частях блока кода. Когда я пытаюсь сделать это со вторым вызовом xpath, он каждый раз печатает...
351 просмотров
schedule 01.09.2022

Facebook любит по запросу парсер метаконтента
вы, ребята, когда-нибудь видели, как FB очищает ссылку, которую вы публикуете на Facebook (статус, сообщение и т. д.), сразу после того, как вы вставляете ее в поле ссылки, и отображает различные метаданные, эскиз изображения, различные изображения из...
3729 просмотров
schedule 05.12.2022

очистить адреса электронной почты
fff.html - это электронное письмо с адресами электронной почты, в некоторых из них есть ссылки href mailto, а в некоторых нет, я хочу очистить их и вывести в следующем формате. [email protected],[email protected],[email protected] У меня есть...
4167 просмотров
schedule 18.02.2023

FF Xpather to Nokogiri Могу ли я просто скопировать и вставить?
Я делал это вручную, а потом застрял и не могу понять, почему это не работает. Я скачал xpather, и он дает мне: /html/body/center/table/tbody/tr[3]/td/table в качестве пути к элементу, который я хочу. Я вручную подтвердил, что это правильно, но...
129 просмотров
schedule 07.03.2023

Как я могу извлечь текст из HTML без использования сторонних библиотек?
_request = (HttpWebRequest)WebRequest.Create(url); _response = (HttpWebResponse) _request.GetResponse(); StreamReader streamReader = new StreamReader(_response.GetResponseStream()); string text = streamReader.ReadToEnd(); Текст с html-тегами....
3513 просмотров
schedule 13.10.2022

PHP очищает удаленные изображения, у которых нет расширений
Я разработал парсер изображений, который будет собирать определенные изображения с удаленных сайтов и отображать их при вставке в текстовое поле. Логика включает поиск изображений, оканчивающихся на .jpg .jpeg. png и т. д. Я столкнулся с...
222 просмотров
schedule 10.09.2023