robots.txt: как запретить подпапки динамической папки

У меня есть такие URL-адреса: / products /: product_id / deal / new / products /: product_id / deal / index

Я хочу запретить использование папки «сделок» в моем файле robots.txt.

[Edit] Я хочу запретить использование этой папки для роботов Google, Yahoo и Bing. Кто-нибудь знает, поддерживают ли эти боты подстановочные знаки и поддерживают ли они следующее правило?

Disallow: /products/*/deals

Также ... Есть ли у вас действительно хороший урок по правилам robots.txt? Поскольку мне не удалось найти "действительно" хороший вариант, я мог использовать его ...

И последний вопрос: лучше ли с этим справиться с помощью robots.txt? Или мне лучше использовать мета "noindex"?

Всем спасибо! :)


person Kulgar    schedule 12.06.2013    source источник
comment
Исходная спецификация robots.txt не поддерживает подстановочные знаки (например, * в вашем примере). Однако некоторые парсеры их поддерживают (но, думаю, они различаются по реализации).   -  person unor    schedule 13.06.2013
comment
Ой, очень плохо :( Ладно, так! Думаю, мне придется использовать метатег, верно? :)   -  person Kulgar    schedule 13.06.2013
comment
да. Или, если вас интересуют только основные поисковые системы, вы посмотрите их документацию и посмотрите, поддерживают ли / как они подстановочные знаки в robots.txt (например, Google, похоже, их поддерживает). Вы можете обновить свой вопрос, включив в него интересующие вас боты / поисковые системы.   -  person unor    schedule 13.06.2013
comment
Спасибо за совет! Я посмотрю на документацию. :)   -  person Kulgar    schedule 13.06.2013


Ответы (2)


Да, все основные поисковые системы поддерживают основные подстановочные знаки *, и ваше решение будет работать, чтобы запретить ваш каталог сделок.

Лучшее место для изучения robots.txt - это страница разработчика Google . Он предоставляет множество примеров того, что работает, а что нет. Например, многие люди не знают, что файлы robots.txt зависят от протокола. Поэтому, если вы хотите заблокировать страницы при https подключении, убедитесь, что у вас есть файл robots.txt по адресу https://yoursite.com/robots.txt

Вы также можете протестировать новый файл robots.txt перед его применением с помощью Инструментов Google для веб-мастеров. По сути, вы можете проверить с помощью поисковой системы, действительно ли она будет работать, перед ее развертыванием.

Что касается блокировки чего-либо с помощью robots.txt или простого добавления noindex к страницам, я более склонен использовать noindex в большинстве сценариев, если я не знаю, что не хочу, чтобы поисковые системы вообще сканировали этот раздел моего сайта.

Есть некоторые компромиссы. Когда вы полностью заблокируете поисковую систему, вы можете сэкономить часть своего «краулингового бюджета». Таким образом, поисковые системы будут сканировать другие страницы, а затем «тратить» свое время на страницы, которые вы не хотите, чтобы они посещали. Однако эти URL-адреса по-прежнему могут отображаться в результатах поиска.

Если вам абсолютно не нужен реферальный поисковый трафик на эти страницы, лучше использовать директиву noindex. Кроме того, если вы часто ссылаетесь на страницу сделок, noindex не только удаляет ее из результатов поиска, но и любое значение ссылки / PageRank может проходить через эти страницы и может быть рассчитано соответствующим образом. Если вы заблокируете их сканирование, это будет своего рода черная дыра.

person eywu    schedule 14.06.2013
comment
Какой чудесный и чудесный ответ! Именно то объяснение, которое мне было нужно! Большое спасибо!! - person Kulgar; 17.06.2013
comment
Нет проблем, с удовольствием :) - person eywu; 18.06.2013

Если вы не уверены, верен ли ваш синтаксис в robots.txt, вы можете проверить его на https://www.google.com/webmasters (чтобы проверить, нет ли ошибок). Кроме того, вы можете ввести URL-адрес страницы, и инструмент сообщит вам, следует ли его блокировать в соответствии с вашим файлом robots.txt или нет.

person Cellydy    schedule 15.02.2017