Как соскрести продукты с сайта с помощью Ruby / Anemone / nokogiri

Можно ли очистить продукты с сайта электронной коммерции с помощью библиотек anemone и nokogiri в ruby?

Я понимаю, как получить нужные мне данные с каждой страницы продукта с помощью nokogiri, но я не могу понять, как заставить anemone / nokogiri сканировать сайт и захватывать все страницы продуктов.

Мы будем очень благодарны за толчок в правильном направлении


person Dan    schedule 20.05.2012    source источник
comment
Мне никогда не удавалось заставить анемоны работать правильно. Я пробовал это несколько раз, но сдавался и каждый раз использовал механизацию.   -  person pguardiario    schedule 20.05.2012
comment
Что вы пробовали? Каков ваш код? Какой у Вас вопрос?   -  person Phrogz    schedule 21.05.2012
comment
stackoverflow.com/questions/10679058 /   -  person Dan    schedule 21.05.2012


Ответы (1)


Я разобрался со своими проблемами. Во-первых, анемон, похоже, не просматривал все страницы. Это произошло потому, что страницы, которые я хотел, находились в субдомене, который я должен был указать анемону для сканирования отдельно от основного домена. Во-вторых, мне нужен был способ определить, какие страницы на самом деле являются страницами продуктов (и, следовательно, их нужно анализировать). Я сделал это, проанализировав одно из нужных полей (номер SKU), а затем проверив, было ли это sku с RegEX.

person Dan    schedule 21.05.2012