Я заинтересован в очистке Craigslist исключительно с целью анализа данных для сообщения в блоге (т. е. без коммерческой или финансовой выгоды, без публикации/отправки по электронной почте, без сбора личных данных, без обмена извлеченными данными). Их файл robots.txt выглядит следующим образом:
User-agent: *
Disallow: /reply
Disallow: /fb/
Disallow: /suggest
Disallow: /flag
Disallow: /mf
Disallow: /eaf
Я не собираюсь посещать ни один из этих каталогов, только просматривать сообщения, а затем собирать текст из тела сообщения. Кажется, это не запрещено в файле robots.txt. Однако в условиях использования Craigslist есть следующая запись (соответствующий бит в смелый):
ИСПОЛЬЗОВАТЬ. Вы соглашаетесь не использовать и не предоставлять программное обеспечение (за исключением веб-браузеров общего назначения и почтовых клиентов или программного обеспечения, лицензированного нами в явной форме) или услуги, которые взаимодействуют или взаимодействуют с CL, например. для скачивания, выгрузки, публикации, пометки, отправки по электронной почте, поиска или мобильного использования. Роботы, поисковые роботы, скрипты, скрейперы, поисковые роботы и т. д. запрещены, равно как и вводящие в заблуждение, нежелательные, незаконные сообщения и/или спам/электронная почта. Вы соглашаетесь не собирать личную и/или контактную информацию пользователей («ЛП»).
Должен ли я предполагать, что мой бот запрещен на всем сайте или просто запрещен в каталогах Disallowed в robots.txt? Если первое, то что я неправильно понимаю в файле robots.txt? Если последнее, то могу ли я предположить, что они не забанят мой IP, учитывая, что я соблюдаю robots.txt?