Парсинг результатов поиска Google

Я «работаю» над проектом интеллектуального анализа данных и решил анализировать результаты поиска Google. Теперь, прежде чем я начну, я хочу посоветоваться с вами - опытными людьми. Я провел небольшое исследование того, как Google выдает результаты, и проанализировал структуру страницы результатов. Все в порядке, я уже разобрался с регулярными выражениями и структурами данных, которые буду использовать.

В промежутках я столкнулся с их CAPTCHA, потому что искал слишком быстро; о, ирония. Я также обнаружил, что они на самом деле ограничивают результаты до 1000. Теперь, есть ли способ избежать этих перипетий, возможно, замедлив скорость выборки url для решения первой или сообщая при обнаружении CAPTCHA, чтобы он ждал моего ввода ; это могло бы сделать это, но как насчет другого? Предоставляет ли Google какой-то API, который я могу использовать для обходного пути? Я не смог найти его на их странице code.*.


person nullpotent    schedule 30.03.2011    source источник
comment
Упорствуйте, и они заблокируют ваш IP-адрес. Используйте их API (и платите, если нужно).   -  person ysth    schedule 30.03.2011
comment
Добыча данных от компании, которая занимается добычей данных?   -  person Caterham    schedule 30.03.2011
comment
@Caterham Я знаю, что это глупо, но я должен это сделать. @ysth Я не плачу за результаты, я попробую с другими поисковыми системами.   -  person nullpotent    schedule 30.03.2011


Ответы (2)


Всегда сначала смотрите на CPAN!

https://metacpan.org/pod/REST%3a%3aGoogle

Если кто-то еще не решил вашу проблему, скорее всего, она странная :-)

person Justin Hawkins    schedule 30.03.2011

Существует API пользовательского поиска.

Он возвращает результаты в json или XML, поэтому вам даже не нужно использовать регулярные выражения. Однако вам нужно платить за более чем 100 поисков в день.

Что именно ты пытаешься сделать? Возможно, есть лучший способ добиться этого.

person Philip    schedule 30.03.2011