Извлекайте похожие статьи на разных языках с помощью Wikidata Toolkit

Я пытаюсь извлечь статьи, связанные с разными языками, в дамп Викиданных. После поиска в Интернете я обнаружил, что есть инструмент под названием Wikidata Toolkit, который помогает в работе с этим типом данных. Но нет информации о том, как найти похожие статьи на разных языках. Например, статья: «Дрезден» на английском языке связана со статьей: "Dresda" на итальянском языке. Я имею в виду, что вторая - это переведенная версия первой. Я попытался использовать инструментарий, но не смог найти никакого решения. Напишите, пожалуйста, пример того, как найти эту статью по теме.


person SahelSoft    schedule 22.01.2018    source источник
comment
Идеи: stackoverflow.com/questions/48332827/   -  person Stanislav Kralin    schedule 23.01.2018
comment
Спасибо Станиславу. Мне нужно изучить полную версию статей в Википедии на английском языке (с их содержанием) и версию, переведенную на испанский язык. Вы знаете, как извлечь эти статьи и их переведенную версию с помощью Wikidata Toolkit. Не могли бы вы представить методы Wikidata Toolkit, связанные с извлечением этих межъязычных статей?   -  person SahelSoft    schedule 23.01.2018
comment
См. Пример файла SitelinksExample.java.   -  person Tgr    schedule 30.01.2018
comment
Спасибо @Tgr. Но этот пример не извлекает межъязыковые статьи :(   -  person SahelSoft    schedule 30.01.2018
comment
Ну нет, это инструментарий Викиданных. Викиданные не содержат этих статей. Но инструментарий говорит вам, что это за статьи.   -  person Tgr    schedule 31.01.2018


Ответы (1)


вы можете использовать дамп Викиданных [1], чтобы получить отображение статей среди википедий на нескольких языках.

например, если вы видите запись викиданных для респираторной системы [2] внизу, вы видите все статьи, относящиеся к той же теме на других языках.

Это сопоставление доступно в дампе викиданных. Просто скачайте дамп викиданных и получите отображение, а затем получите соответствующий текст из дампа википедии. Вы можете столкнуться с некоторыми другими проблемами, такими как разрешение перенаправления википедии.

[1] https://dumps.wikimedia.org/wikidatawiki/entities/ [2 ] https://www.wikidata.org/wiki/Q7891

person David Przybilla    schedule 05.02.2018
comment
Спасибо @David. Предоставляет ли Wikidata Toolkit содержание (текст) каждой связанной статьи, или я сам должен написать код для их извлечения? Размер файла дампа огромен, и мне так сложно его скачать и проанализировать. - person SahelSoft; 05.02.2018
comment
Не могли бы вы дать мне адрес свалки Википедии. Я не могу найти дамп википедии. Судя по всему, это сочетается с проектом Викимедиа, и я не знаю, какой файл мне скачать. Спасибо. - person SahelSoft; 05.02.2018
comment
Я думаю, что викиданные могут содержать аннотацию на английском языке, но определенно не текст для всех языков. - person David Przybilla; 05.02.2018
comment
@SahelSoft вы можете использовать такой проект, как: github.com/idio/json-wikipedia для создания json-википедии для нужных вам языков - person David Przybilla; 05.02.2018
comment
@SahelSoft с уважением к свалкам dumps.wikimedia.org/backup-index.html там вы можете их найти. например enwiki-20180201-pages-article-multistream.xml.bz2 - это английская википедия. eswiki: страницы статей были бы испанской Википедией ... и так далее .. - person David Przybilla; 05.02.2018
comment
Спасибо, @David. Ссылка на github может быть полезна. Другой вопрос: чем отличается стандартная статья от статьи с редиректом? - person SahelSoft; 05.02.2018
comment
@SahelSoft статья в Википедии может иметь много псевдонимов, например en.wikipedia.org/wiki/New_York_City и en.wikipedia.org/wiki/NYC a Redirect принимают псевдонимы на их канонические имена. каноническое имя может меняться между дампами Википедии. Это одна из причин, по которой Викиданные используют более абстрактные названия тем: Q123 (например) - person David Przybilla; 06.02.2018