Как сканировать / индексировать ссылки на одной странице: Google Search Appliance

Я новичок в GSA и также не имею полного административного доступа к системе, поэтому мне нужно пересылать запросы в службы ICT, чтобы внести изменения в наши обходы и коллекции.

Надеюсь, кто-то сможет помочь с этим вопросом:

У меня есть одна веб-страница, на которой есть список ссылок примерно на 180 документов (большинство из которых хранятся в том же подкаталоге / docs /, который содержит около 2400 документов). Остальные разбросаны по сайту в ряде других подкаталогов, например / finance /, / hr / и т. Д.

На данный момент все, что происходит, - это то, что я либо проиндексирую одну веб-страницу, а не одну из 180 ссылок. Или я получаю 1 страницу плюс ВСЕ 2400 документов в подкаталоге / docs /.

Я хочу иметь возможность просто сканировать / проиндексировать эту страницу и 180 ссылок и создать отдельную коллекцию

Есть простой способ сделать это?

С уважением Генри


person Henry Legedza    schedule 29.04.2015    source источник


Ответы (3)


  1. Вместо того, чтобы настраивать шаблон URL-адреса под начальными URL-адресами и следовать шаблону, настройте полный URL-адрес. Получите 180 URL-адресов + 1 URL-адрес одной веб-страницы и поместите все 181 URL-адрес под начальными URL-адресами и следуйте шаблону. Настроив полные URL-адреса, мы могли бы избежать сканирования GSA других URL-адресов в приложении, поскольку мы не сохраняем какой-либо общий шаблон URL-адресов. URL-адреса.
  2. Создайте новую коллекцию и поместите все 180 URL-адресов документов + URL-адрес одной веб-страницы (или общий шаблон, соответствующий 181 URL-адресу) в этой коллекции в разделе «Включить контент, соответствующий следующим шаблонам».

Я предполагаю, что вы не хотите индексировать другие 2400 документов на GSA. Надеюсь, это поможет.

С уважением,

Мохан.

person Mohan kumar    schedule 29.04.2015

Другое возможное решение - использовать файл robots.txt, чтобы запретить сканирование других страниц, которые вам не нужны. Это потребует много работы, если вам придется их все перечислить.

Лучше всего посмотреть, есть ли какой-нибудь общий шаблон URL, который вы можете использовать, чтобы указать только 180 страниц, которые вам нужны. Например, все ли страницы, которые вам нужны, PDF-файлы, а другие файлы, которые вам не нужны, относятся к другому типу? Если вы можете найти что-то общее для всех желаемых страниц, что не соответствует действительности для других страниц, вы можете использовать это, чтобы сформулировать шаблон (возможно, используя регулярное выражение), чтобы делать то, что вы хотите.

person Wej Murfy    schedule 29.04.2015

Для этого лучше использовать мета-канал и URL-адрес.

Это позволит вам контролировать, следует ли GSA по ссылкам на ваших 180 страницах, если вы их вводили, или же индексировать страницу со списком, если вы просто загружаете их. Для этого нужно указать noindex или nofollow.

Вам по-прежнему необходимо правильно настроить шаблоны отслеживания и сканирования и коллекции, но это самый простой способ контролировать то, что индексируется.

Вам также не обязательно писать код для этого, вы можете использовать curl и вручную создать xml.

Документация довольно хороша, и ей легко следовать. Руководство для разработчиков протоколов каналов

person BigMikeW    schedule 30.04.2015