Интерпретация robots.txt и условия использования

Я заинтересован в очистке Craigslist исключительно с целью анализа данных для сообщения в блоге (т. е. без коммерческой или финансовой выгоды, без публикации/отправки по электронной почте, без сбора личных данных, без обмена извлеченными данными). Их файл robots.txt выглядит следующим образом:

User-agent: *
Disallow: /reply
Disallow: /fb/
Disallow: /suggest
Disallow: /flag
Disallow: /mf
Disallow: /eaf

Я не собираюсь посещать ни один из этих каталогов, только просматривать сообщения, а затем собирать текст из тела сообщения. Кажется, это не запрещено в файле robots.txt. Однако в условиях использования Craigslist есть следующая запись (соответствующий бит в смелый):

ИСПОЛЬЗОВАТЬ. Вы соглашаетесь не использовать и не предоставлять программное обеспечение (за исключением веб-браузеров общего назначения и почтовых клиентов или программного обеспечения, лицензированного нами в явной форме) или услуги, которые взаимодействуют или взаимодействуют с CL, например. для скачивания, выгрузки, публикации, пометки, отправки по электронной почте, поиска или мобильного использования. Роботы, поисковые роботы, скрипты, скрейперы, поисковые роботы и т. д. запрещены, равно как и вводящие в заблуждение, нежелательные, незаконные сообщения и/или спам/электронная почта. Вы соглашаетесь не собирать личную и/или контактную информацию пользователей («ЛП»).

Должен ли я предполагать, что мой бот запрещен на всем сайте или просто запрещен в каталогах Disallowed в robots.txt? Если первое, то что я неправильно понимаю в файле robots.txt? Если последнее, то могу ли я предположить, что они не забанят мой IP, учитывая, что я соблюдаю robots.txt?


person Dodgie    schedule 21.12.2016    source источник


Ответы (1)


Они предоставляют данные в формате rss. В правом нижнем углу есть ссылка rss, которая приведет вас к ?format=rss

Например: https://losangeles.craigslist.org/search/sss?format=rss

Я предполагаю, что такие вещи действительно не разрешены, если вы распространяете контент публикации, собираете электронные письма в спам и т. д. Вероятно, это зависит от того, как вы используете данные. Если вы только собираете статистическую информацию, возможно, это приемлемо, но я действительно не знаю. Наверное, лучше задать вопрос юристу.

person Community    schedule 29.12.2016
comment
Вероятно. Мне просто интересно, свидетельствует ли конфликт, упомянутый в OP, о некоторой халатности с их стороны, или если никого больше не волнует robots.txt - person Dodgie; 30.12.2016
comment
Я не думаю, что robots.txt и tos действительно связаны. Robots.txt определяет, что они хотят индексировать поисковыми системами, tos определяет, как пользователям разрешено использовать веб-сайт. - person ; 30.12.2016