как найти наиболее популярные статьи, которых еще нет в Википедии, с помощью php и wikipedia api?

Я ищу алгоритм в php, который позволяет получать наиболее популярные термины (статьи), которых еще нет в википедии (красные ссылки) (или в одном из подпроектов), используя API wikipedia или wikipedia дампы количества страниц. Я уже знаю о статистике statsgrok (сопровождающий этого проекта Хенрик не отвечает на своей странице в википедии), но она не предоставляет никакой информации о «красных ссылках». Я хотел бы получить статистику о ситуации, когда пользователь вводит какое-то слово на странице поиска в википедии, а википедия предлагает создать эту страницу, потому что этого слова еще нет в википедии.

РЕДАКТИРОВАТЬ: на самом деле, wikimedia bugzilla уже сообщала об этой ошибке: Ошибка 6373 - Предоставьте список неудачных поисков, зарегистрированных в 2006 году, но последняя активность по этой ошибке была зарегистрирована в 2012-04-02 18:58 UTC ... Итак, это будет долгий путь к решению этой проблемы, я думаю Может быть, кто-то нашел что-то паллиативное для решения этой проблемы?


person lindrangr2013    schedule 06.09.2013    source источник
comment
Как бы вы различили термины, которые должны быть статьями, и поисковые запросы, которые не имеют смысла в качестве заголовков статей?   -  person svick    schedule 06.09.2013
comment
@svick на первом этапе, я хотел бы получать только необработанные данные о поисковых запросах, потому что основная цель - получить необработанные данные о большинстве поисковых запросов. Во-вторых, я думаю, что буду использовать какой-нибудь словарь с открытым исходным кодом или какой-нибудь открытый словарь API.   -  person lindrangr2013    schedule 06.09.2013
comment
@svick На самом деле, это довольно просто: я ранжирую все искомые термины по частоте и в верхней части списка я найду наиболее подходящие термины для будущих статей, а в конце списка - бессмысленные слова.   -  person lindrangr2013    schedule 07.09.2013


Ответы (3)


Вам следует зарегистрировать ошибку, чтобы запросить, чтобы эта информация была опубликована где-нибудь на викистаты.

Или начните обсуждение на wikitech-l, поскольку я уверен, что другие люди заинтересованы в получении такого рода данных.

person Mark A. Hershberger    schedule 06.09.2013
comment
Думаю, я запишу ошибку, но очень удивительно, что за 11 лет использования и разработки mediawiki эта функция не была реализована и никем не запрашивалась ... - person lindrangr2013; 06.09.2013
comment
Для справки, реализованные в настоящее время списки можно найти на странице Special: WantedPages (устарело, и не с возможностью фильтрации для основного пространства имен) и WikiProject Отсутствующие энциклопедические статьи (поддерживается вручную). Также, как любопытство, самый старый комментарий на странице обсуждения для Special: WantedPages - это статистика неудачных поисков - люди действительно давно этого хотели. - person waldyrious; 03.10.2013

Как насчет того, чтобы отслеживать поисковые запросы типа «найден, но не найден» в таблице БД и сколько раз они выполнялись в отдельном поле?

Сделать это очень просто. Но тогда вам нужно учесть разницу в заголовках, которые люди будут искать, или просто разбить их на слова и отслеживать только слова (игнорируя грамматические предложения и т. Д.)

person mavili    schedule 06.09.2013
comment
Я хотел бы получить доступ к актуальной wikipedia с помощью API wikipedia или дампов количества страниц, у меня нет доступа к их базе данных, это не мой собственный проект на движке Викимедиа ... Так что это не решение для меня. - person lindrangr2013; 06.09.2013

Существует список, который ведет Пользователь: West.andrew.g, который на данный момент может быть лучшим ресурсом для получения этой информации. Страница обновляется каждую неделю. Вы можете извлечь данные с этой страницы или реализовать тот же подход, что и он, если вам нужны другие параметры (более высокая частота обновления, красные ссылки с менее 1000 просмотров в неделю и т. Д.). Кажется, он получает данные из дампов Викимедиа и запрашивает серверы для каждой записи. выше порога в 1 тыс. просмотров в неделю.

Кстати, оказывается, что stats.grok.se действительно собирает статистику по красным ссылкам (example), хотя составленный список таких страниц не представлен.

person waldyrious    schedule 28.11.2013