Легко скачать дампы Википедии в формате XML. Однако содержание статей пишется в викитексте, который имеет систему шаблонов. Чтобы извлечь из этих дампов чистые полные тексты, необходимо расширить эти шаблоны. Википедия предоставляет для этого API, но он не подходит для расширения всего дампа. Можно найти несколько скриптов для работы с викитекстом, например, этот написан на python, но они все кажется устаревшим или просто не имеет дело с шаблонами. Другой способ решить эту проблему — запустить Wikimedia на компьютере и использовать API:Expandtemplates, но это кажется довольно громоздким решением. Наконец, HTML-дампы также существуют, но я предпочитаю работать с расширенными вики-текстами, так как это упрощает работу с вики-ссылками, таблицами, разделами и т. д.
Моя цель здесь — извлечь чистые тексты, сохранив вики-ссылки и отказавшись от сложных шаблонов, таких как информационные окна. Есть ли у вас какие-либо идеи, как решить эту проблему расширения шаблона?