Пользовательский поиск Google в разработке

Делаю редизайн для клиента. На новом сайте я хотел бы использовать Google Custom Search (CSE) в качестве поисковой системы. Пока я в разработке, я не могу позволить Google проиндексировать новый сайт, так как это будет ужасный беспорядок дублирования и полуготовых страниц, плавающих в индексе Google.

Итак, как мне протестировать и уточнить результаты поиска из Google CSE на моем сайте разработки перед запуском?

Спасибо, Даниэль


person Daniel Hedenström    schedule 02.05.2013    source источник
comment
Будет ли этот сайт находиться в домене? Потому что в противном случае нет необходимости думать об индексации.   -  person fotanus    schedule 02.05.2013
comment
Что вы подразумеваете под доменом? В конечном итоге он будет размещен на www.example.com, но во время разработки и тестирования он будет находиться на test.example.com.   -  person Daniel Hedenström    schedule 09.05.2013


Ответы (3)


Ваши сайты должны быть добавлены в вашу учетную запись инструментов для веб-мастеров. Как только я добавил свои тестовые сайты, я смог просканировать страницы с поиском по сайту с файлом robots.txt в индексе, который запрещает поиск по сайту.

Мне удалось просканировать страницу, но для проверки я проверил URL-адрес в инструментах для веб-мастеров, и он говорит, что страница все еще скрыта от основного индекса Google. Я добавил этот же URL-адрес в индекс пользовательского поиска, и если он нашел его, то все в порядке.

Таким образом, это позволит вам эффективно искать ваш тестовый сайт, но скрыть его от мирового поиска.

введите здесь описание изображения

person styks    schedule 19.08.2013

По состоянию на ноябрь 2016 года это все еще невозможно. Я понимаю, что это спустя годы после того, как вопрос был задан, но я пытался это сделать. Это (разочаровывающий) ответ, который я получил на запрос в службу поддержки Google.

Google Site Search будет возвращать только те URL-адреса, которые:

  1. Добавлено на сайты для настройки поиска и
  2. Индексировано

Я хотел бы сообщить вам, что GSS размещается в инфраструктуре Google и использует ту же технологию, что и Google.com. Невозможно проиндексировать страницы внутри GSS, но не в основном индексе Google.

GSS может индексировать и сканировать только те документы, которые общедоступны и доступны через Интернет.

GSS и Google.com используют один и тот же поисковый робот и один и тот же сервер индексации. Таким образом, если вы заблокируете доступ для google.com, ваши страницы не будут проиндексированы и также не будут отображаться в результатах GSS.

person JonK    schedule 09.11.2016

Вы можете избежать индексации некоторых страниц с помощью роботов.

Владельцы веб-сайтов используют файл /robots.txt для предоставления веб-роботам инструкций относительно своего сайта; это называется протоколом исключения роботов.

Это работает следующим образом: робот хочет просмотреть URL-адрес веб-сайта, скажем, http://www.example.com/welcome.html. Перед этим он сначала проверяет наличие http://www.example.com/robots.txt и находит:

User-agent: *
Disallow: /

«User-agent: *» означает, что этот раздел относится ко всем роботам. «Запретить: /» сообщает роботу, что он не должен посещать какие-либо страницы на сайте.

Глядя на документы, я ничего не могу найти о robots.txt, поэтому не уверен, что он соблюдается. но, глядя на документы, говорится, что вы можете удалить его вручную или установить срок годности sitemap.xml

person fotanus    schedule 02.05.2013
comment
В ОП сказано перед запуском, поэтому при тестировании веб-сайт не будет в сети. Кажется, ему нужна возможность протестировать его в автономном режиме или на локальной машине. - person Uooo; 02.05.2013
comment
@w4rumy спасибо, может я не понял вопроса? Сделаю несколько комментариев, чтобы попытаться прояснить для меня. - person fotanus; 02.05.2013
comment
Спасибо за Ваш ответ. Чтобы уточнить: желательно, чтобы я запускал его на локальном компьютере, однако это не обязательно. Действующий (старый) сайт находится по адресу www.awesomesite.com, а новый сайт, находящийся в разработке, — по адресу test.awesomesite.com. Таким образом, Google может получить доступ к тестовому сайту, но я пока не хочу, чтобы страницы test.awesomesite.com отображались в общем индексе Google. Что касается решения robot.txt, не помешает ли это Google CSE индексировать страницы для локального поиска? - person Daniel Hedenström; 02.05.2013