robots.txt: как запретить подпапки динамической папки

У меня есть такие URL-адреса: / products /: product_id / deal / new / products /: product_id / deal / index

Я хочу запретить использование папки «сделок» в моем файле robots.txt.

[Edit] Я хочу запретить использование этой папки для роботов Google, Yahoo и Bing. Кто-нибудь знает, поддерживают ли эти боты подстановочные знаки и поддерживают ли они следующее правило?

Disallow: /products/*/deals

Также ... Есть ли у вас действительно хороший урок по правилам robots.txt? Поскольку мне не удалось найти "действительно" хороший вариант, я мог использовать его ...

И последний вопрос: лучше ли с этим справиться с помощью robots.txt? Или мне лучше использовать мета "noindex"?

Всем спасибо! :)

robots.txt seo noindex

Kulgar 12.06.2013 источник

comment

Исходная спецификация robots.txt не поддерживает подстановочные знаки (например, * в вашем примере). Однако некоторые парсеры их поддерживают (но, думаю, они различаются по реализации). - unor 13.06.2013

comment

Ой, очень плохо :( Ладно, так! Думаю, мне придется использовать метатег, верно? :) - Kulgar 13.06.2013

comment

да. Или, если вас интересуют только основные поисковые системы, вы посмотрите их документацию и посмотрите, поддерживают ли / как они подстановочные знаки в robots.txt (например, Google, похоже, их поддерживает). Вы можете обновить свой вопрос, включив в него интересующие вас боты / поисковые системы. - unor 13.06.2013

comment

Спасибо за совет! Я посмотрю на документацию. :) - Kulgar 13.06.2013

Ответы (2)

arrow_upward
2
arrow_downward

Да, все основные поисковые системы поддерживают основные подстановочные знаки *, и ваше решение будет работать, чтобы запретить ваш каталог сделок.

Лучшее место для изучения robots.txt - это страница разработчика Google . Он предоставляет множество примеров того, что работает, а что нет. Например, многие люди не знают, что файлы robots.txt зависят от протокола. Поэтому, если вы хотите заблокировать страницы при https подключении, убедитесь, что у вас есть файл robots.txt по адресу https://yoursite.com/robots.txt

Вы также можете протестировать новый файл robots.txt перед его применением с помощью Инструментов Google для веб-мастеров. По сути, вы можете проверить с помощью поисковой системы, действительно ли она будет работать, перед ее развертыванием.

Что касается блокировки чего-либо с помощью robots.txt или простого добавления noindex к страницам, я более склонен использовать noindex в большинстве сценариев, если я не знаю, что не хочу, чтобы поисковые системы вообще сканировали этот раздел моего сайта.

Есть некоторые компромиссы. Когда вы полностью заблокируете поисковую систему, вы можете сэкономить часть своего «краулингового бюджета». Таким образом, поисковые системы будут сканировать другие страницы, а затем «тратить» свое время на страницы, которые вы не хотите, чтобы они посещали. Однако эти URL-адреса по-прежнему могут отображаться в результатах поиска.

Если вам абсолютно не нужен реферальный поисковый трафик на эти страницы, лучше использовать директиву noindex. Кроме того, если вы часто ссылаетесь на страницу сделок, noindex не только удаляет ее из результатов поиска, но и любое значение ссылки / PageRank может проходить через эти страницы и может быть рассчитано соответствующим образом. Если вы заблокируете их сканирование, это будет своего рода черная дыра.

eywu 14.06.2013

comment

Какой чудесный и чудесный ответ! Именно то объяснение, которое мне было нужно! Большое спасибо!! - Kulgar; 17.06.2013

comment

Нет проблем, с удовольствием :) - eywu; 18.06.2013

arrow_upward
0
arrow_downward

Если вы не уверены, верен ли ваш синтаксис в robots.txt, вы можете проверить его на https://www.google.com/webmasters (чтобы проверить, нет ли ошибок). Кроме того, вы можете ввести URL-адрес страницы, и инструмент сообщит вам, следует ли его блокировать в соответствии с вашим файлом robots.txt или нет.

Cellydy 15.02.2017

robots.txt: как запретить подпапки динамической папки

Ответы (2)

Вопросы по теме