Есть ли причина, по которой такие сайты, как Facebook / Digg / Reddit, не анализируют правильные метатеги на странице для заголовка / описания?

Любая статья на нашем сайте имеет метатеги для заголовка, описания, изображения и ключевых слов в элементе заголовка, но по какой-то причине ни один из сайтов агрегирования новостей не будет использовать их.

http://darthhater.com/2010/06/25/friday-update-preview http://darthhater.com/2010/06/24/official-bioware-stance-on-game-testing-leaks.

Не пытаюсь разместить рекламу. У нас действительно есть проблема. Ссылка для публикации находится в правом нижнем углу статьи со ссылками на Facebook, Digg и Reddit. Жаль, что ни один из них не предоставляет системы отладки, чтобы выяснить, почему что-то неправильно загружается в их систему.

Я думаю, это может иметь какое-то отношение к сжатию сайта gzip или, может быть, потому, что синтаксический анализатор PHP XSL выводит сайт как XML (я удаляю начальный тег программно, но даже если я установил XSL на 'html' проблема не устранена. Я подумал, что, может быть, это связано с удаленными пробелами или порядком метатегов (я знаю, нелепо). Это немного раздражает, и если я помещу наши URL-адреса в средства проверки SEO, такие как seocentro.com, он найдет все метатегов просто отлично, так что это, очевидно, не ошибка синтаксического анализа страницы с их стороны.


person David    schedule 25.06.2010    source источник


Ответы (1)


Я думаю, что это потому, что у вас есть head часть в одной огромной строке:

<html xmlns="http://www.w3.org/1999/xhtml" xmlns:magasi="http://www.magasi-php.com/" xmlns:php="http://www.w3.org/1999/XSL/Transform"><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /><meta name="title" content="Friday Update Preview" /><meta name="description" content="Sean Dahlberg, Star Wars: The Old Republic Community Manager, informs the community that tomorrow's update will be a late one:  Just wanted to let everyone kno..." /><link rel="image_src" href="http://darthhater.com/images/fbimage.jpg" /><meta name="keywords" content="Friday Preview,Sean Dahlberg" /><link rel="alternate" type="application/rss+xml" title="Darth Hater - A Star Wars: The Old Republic Community RSS Feed" href="http://darthhater.com/feed/" /><link type="text/css" rel="stylesheet" href="/styles/DarthHater/style/main.css" /><script type="text/javascript" language="javascript">

это, вероятно, правильный HTML, но я не удивлюсь, если парсер подавится им.

Кроме того, у вас есть 438 ошибок проверки. Вероятно, это не ваша проблема, так как это в основном мелочи, и парсеры должны иметь возможность работать с недопустимым HTML, но никто никогда не знает.

person Pekka    schedule 25.06.2010
comment
Если я вручную добавлю разрывы строк после html, head и каждого из метатегов, проблема все еще существует. : / - person David; 26.06.2010
comment
@ Дэвид странный. А как насчет того, чтобы попробовать скелет HTML-страницы без содержимого, чтобы увидеть, будет ли она извлечена? - person Pekka; 26.06.2010
comment
Ну, на самом деле, если я просто вытащу отображаемый исходный код со страницы и сохраню его в стандартный файл HTML, метатеги будут работать нормально. darthhater.com/test_meta.html Если я просто добавлю это как ссылку на facebook или digg вручную, все тянет, так что, возможно, это могло быть сжатие страницы? Есть ли способ узнать, является ли посетитель скриптом facebook или скриптом digg, чтобы я мог отключить сжатие для этих посетителей? :П - person David; 26.06.2010
comment
Да, я действительно могу подтвердить, что если я просто отключу кодировку вывода gzip в php, все будет нормально. Хм... - person David; 26.06.2010
comment
@ Дэвид, это действительно странно! Но почему вы сжимаете PHP и не оставляете это Apache? Может быть, их сканеры не отправляют заголовок acccept-encoding: gzip,deflate? Apache распознает это и автоматически отключит архивирование. - person Pekka; 26.06.2010
comment
Хорошо, я получу mod_deflate в нашей конфигурации apache и посмотрю, исправит ли это это. - person David; 26.06.2010