Rapid Miner не сохраняет результаты сканирования в Интернете

Я пытаюсь просмотреть обзор определенного фильма с веб-сайта IMDB. Для этого я использую обходную сеть, которую я встроил в цикл, так как есть 74 страницы.

Во вложении изображения конфигурации. Пожалуйста помоги. Сильно застрял в этом.

URL-адрес для сканирования в Интернете: http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos}

Kartik Solanki 18.04.2016 источник

Ответы (1)

arrow_upward
0
arrow_downward

Когда я попробовал это, я получил 403 forbidden ошибки, потому что служба IMDB думает, что я робот. Использование Loop с Crawl Web является плохой практикой, поскольку оператор Loop не реализует ожидание.

Этот процесс можно свести к оператору Crawl Web. Ключевые параметры:

URL-адрес – установите значение http://www.imdb.com/title/tt0454876.
максимальное количество страниц - установите это значение на 79 или любое другое число, которое вам нужно
максимальный размер страницы - установите значение 1000
правила сканирования - установите те, которые вы указали
выходной каталог - выберите папку для хранения вещей

Это работает, потому что оператор сканирования обработает все возможные URL-адреса, соответствующие правилам, и сохранит те, которые также соответствуют. Посещения будут задержаны на 1000 мс (параметр задержки), чтобы избежать срабатывания исключения робота на сервере.

Надеюсь, это поможет вам начать.

Andrew Chisholm 18.04.2016

comment

Я уже инициализировал макрос со значением 0 и добавляю 10 на каждой итерации, потому что веб-страницы для обзоров imdb.com/title/tt0454876/reviews?start=0 imdb.com/title/tt0454876/reviews?start=10 imdb.com/title/tt0454876/reviews?start=20 и так далее. Вот почему я использую приращение 10 в каждом цикле, чтобы получить все отзывы. Не могли бы вы подсказать мне, как мне исправить мой заказ на выполнение ?? - Kartik Solanki; 18.04.2016

comment

Также я инициализировал макрос на вкладке контекста как имя макроса «pagePos» и значение «0». Можете ли вы сказать мне, какой должен быть порядок выполнения внутри цикла??? Кроме того, каким должно быть правило сканирования, так как мне нужно получить только отзывы ?? Я только новичок в Rapidminer, поэтому, пожалуйста, помогите мне. - Kartik Solanki; 18.04.2016

comment

Текущий процесс дает 403 ошибки. Причина, вероятно, заключается в неправильном использовании Crawl Web в тесном цикле прямого доступа к URL-адресу. Процесс можно упростить, чтобы вообще не использовать оператор Loop. Я обновил свой ответ. - Andrew Chisholm; 19.04.2016

Rapid Miner не сохраняет результаты сканирования в Интернете

Ответы (1)

Вопросы по теме