Лучший Java API для доступа к данным Википедии

Я хочу получить доступ к данным Википедии для оптимизации некоторых задач НЛП, основанных на исследованиях. Я сосредоточен на поиске Java API. Я видел много Java API, например JWPL, gwtwiki, wikixmlj, Bliki Engine, Wiki.java, Stackoverfolw Question.

Я не очень понимаю, какой API мне следует использовать. Мои требования заключаются в том, чтобы найти следующую информацию о сущностях Википедии.

  1. Материал истории изменений.
  2. Полный текст статьи и метаданные статьи
  3. Информация об авторах
  4. внешние ссылки + внутренние ссылки
  5. страницы разговоров
  6. Статистика
  7. Отзывы пользователей

Я видел примеры из Java-проектов дома, о которых я упоминал выше. Но я не уверен, что получил всю информацию из одного API. Пожалуйста, помогите мне, у кого есть опыт обработки данных Википедии, чтобы я мог принять лучшее решение.


person Imran    schedule 24.04.2013    source источник
comment
Вам нужно обработать несколько конкретных статей или большую часть контента? В последнем случае вам следует загрузить конкретный дамп базы данных, который содержит данные, которые вы перечислены, кроме отзывов пользователей   -  person Jacopofar    schedule 24.04.2013
comment
Что ж, на более поздних этапах мне может понадобиться много статей, но на начальном этапе мне нужно протестировать его с несколькими статьями. Получение дампов Википедии требует очень много времени, поэтому сейчас мне нужен стартап с обработкой нескольких статей, но полной информации о них, я уже потратил много времени на поиск хорошего API.   -  person Imran    schedule 24.04.2013


Ответы (2)


Sweble за получение полного текста и ссылок. Я не использовал его для других случаев и поэтому не могу комментировать это.

person Daniel Naber    schedule 24.04.2013

Я предлагаю вам взглянуть на JWPL — библиотеку Википедии на основе Java. https://code.google.com/p/jwpl/

У него хорошая поддержка ревизий, и мне кажется (легко) самой активной java-библиотекой википедии.

В отличие от JWBF (фреймворк для ботов), он больше предназначен для анализа и не позволяет создавать ботов и писать в википедию, но эти ограничения не являются для вас проблемой.

person Tom    schedule 30.04.2014
comment
Я действительно сомневаюсь в самой активной java-библиотеке википедии. У меня действительно плохой опыт в их списке рассылки.... - person Imran; 01.05.2014
comment
Это очень плохо - похоже, он соответствовал вашим требованиям. Вы нашли что-нибудь лучше? - person Tom; 01.05.2014