Rapid Miner не сохраняет результаты сканирования в Интернете

Я пытаюсь просмотреть обзор определенного фильма с веб-сайта IMDB. Для этого я использую обходную сеть, которую я встроил в цикл, так как есть 74 страницы.

Во вложении изображения конфигурации. Пожалуйста помоги. Сильно застрял в этом.

URL-адрес для сканирования в Интернете: http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos}

введите здесь описание изображения


person Kartik Solanki    schedule 18.04.2016    source источник


Ответы (1)


Когда я попробовал это, я получил 403 forbidden ошибки, потому что служба IMDB думает, что я робот. Использование Loop с Crawl Web является плохой практикой, поскольку оператор Loop не реализует ожидание.

Этот процесс можно свести к оператору Crawl Web. Ключевые параметры:

  • URL-адрес – установите значение http://www.imdb.com/title/tt0454876.
  • максимальное количество страниц - установите это значение на 79 или любое другое число, которое вам нужно
  • максимальный размер страницы - установите значение 1000
  • правила сканирования - установите те, которые вы указали
  • выходной каталог - выберите папку для хранения вещей

Это работает, потому что оператор сканирования обработает все возможные URL-адреса, соответствующие правилам, и сохранит те, которые также соответствуют. Посещения будут задержаны на 1000 мс (параметр задержки), чтобы избежать срабатывания исключения робота на сервере.

Надеюсь, это поможет вам начать.

person Andrew Chisholm    schedule 18.04.2016
comment
Я уже инициализировал макрос со значением 0 и добавляю 10 на каждой итерации, потому что веб-страницы для обзоров imdb.com/title/tt0454876/reviews?start=0 imdb.com/title/tt0454876/reviews?start=10 imdb.com/title/tt0454876/reviews?start=20 и так далее. Вот почему я использую приращение 10 в каждом цикле, чтобы получить все отзывы. Не могли бы вы подсказать мне, как мне исправить мой заказ на выполнение ?? - person Kartik Solanki; 18.04.2016
comment
Также я инициализировал макрос на вкладке контекста как имя макроса «pagePos» и значение «0». Можете ли вы сказать мне, какой должен быть порядок выполнения внутри цикла??? Кроме того, каким должно быть правило сканирования, так как мне нужно получить только отзывы ?? Я только новичок в Rapidminer, поэтому, пожалуйста, помогите мне. - person Kartik Solanki; 18.04.2016
comment
Текущий процесс дает 403 ошибки. Причина, вероятно, заключается в неправильном использовании Crawl Web в тесном цикле прямого доступа к URL-адресу. Процесс можно упростить, чтобы вообще не использовать оператор Loop. Я обновил свой ответ. - person Andrew Chisholm; 19.04.2016