Определение априорного рейтинга сайтов, которые пользователь, скорее всего, посещал.

Это для http://cssfingerprint.com

У меня большая база данных (~ 100 миллионов строк) веб-сайтов. Это включает в себя как основные домены (как 2LD, так и 3LD), а также определенные URL-адреса, извлеченные из этих доменов (независимо от того, размещены ли они там [как большинство блогов] или только связаны с ним [например, Digg] и со ссылкой на хост-домен).

Я также собираю топ-миллион Alexa, топ-1000 Bloglines, Google pagerank, топ-100 Technorati и топ-миллион Quantcast. Однако у многих доменов не будет рейтинга или будет только частичный набор; и почти все URL-адреса поддоменов вообще не имеют рейтинга, кроме рейтинга страниц Google 0-10 (у некоторых даже этого нет).

Я могу добавить любые новые необходимые соскобы, при условии, что это не требует большого количества пауков.

У меня также есть достаточно информации о том, какие сайты посещали предыдущие пользователи.

Что мне нужно, так это алгоритм, который упорядочивает эти URL-адреса в зависимости от того, насколько вероятно, что посетитель посетил этот URL-адрес, не зная о текущем посетителе. (Однако он может использовать агрегированную информацию о предыдущих пользователях.)

Этот вопрос как раз об относительно фиксированном (или, по крайней мере, агрегированном) априорном ранжировании; есть еще один вопрос, касающийся получение динамического рейтинга.

Учитывая, что у меня ограниченные ресурсы (как вычислительные, так и финансовые), как мне лучше ранжировать эти сайты в порядке априорной вероятности их посещения?


person Sai    schedule 11.03.2010    source источник