использование набора данных википедии для рейтинга страниц в Hadoop

Я буду делать проект по рейтингу страниц и инвертированному индексированию набора данных википедии с использованием apache hadoop. Я скачал весь дамп вики - http://download.wikimedia.org/enwiki/latest/enwiki-latest-pages-article.xml.bz2. Он распаковывается до одного 42 Гб. xml-файл. Я хочу как-то обработать этот файл, чтобы получить данные, подходящие для ввода в алгоритмы pagerank и перевернутого индексирования. Пожалуйста помоги! Любые наводки будут полезны.


person Rishabh Arora    schedule 02.07.2013    source источник
comment
Если вы ищете информацию о том, какая страница ссылается на другую страницу той же вики, то эта информация содержится в дампе pagelinks (вам, вероятно, также понадобится дамп page).   -  person svick    schedule 02.07.2013
comment
@svick- точно! но как мне извлечь эти 2 файла из 1 большого файла .xml размером 42 ГБ ??   -  person Rishabh Arora    schedule 03.07.2013
comment
Вы не знаете. Просто скачайте два дампа SQL.   -  person svick    schedule 03.07.2013
comment
@svick-хорошо! Кроме того, мне нужно сделать инвертированное индексирование, для которого мне нужны все статьи в Википедии. как я могу получить это? Из того большого файла, который я скачал, или из любого другого отдельного файла???   -  person Rishabh Arora    schedule 04.07.2013


Ответы (2)


Вам нужно написать свой собственный формат ввода для обработки XML. Вам также потребуется реализовать RecordReader, чтобы убедиться, что ваши inputsplits имеют полностью сформированный фрагмент XML, а не только одну строку. См. http://www.undercloud.org/?p=408.

person Arijit Banerjee    schedule 03.07.2013
comment
В ПОРЯДКЕ! Теперь я понимаю! Постараюсь реализовать в ближайшее время :). Спасибо!. Кроме того, есть ли какое-либо программное обеспечение, которое может открывать/редактировать эти большие файлы .xml (42 ГБ)??? - person Rishabh Arora; 03.07.2013
comment
Редактировать файл размером 42 ГБ на одной машине было бы болезненно (поэтому мы используем MR). Если вы хотите извлечь образец, чтобы понять, как выглядит xml, попробуйте unix head или другие команды. - person Arijit Banerjee; 04.07.2013
comment
Спасибо!! Вы были действительно полезны! - person Rishabh Arora; 04.07.2013

Ваш вопрос мне не очень ясен. Какая идея вам нужна?

Самое первое, что вас поразит, это то, как вы собираетесь обрабатывать этот XML-файл в своей работе MR. Платформа MR не предоставляет встроенного InputFormat для XML-файлов. Для этого вы можете взглянуть на это.

person Tariq    schedule 02.07.2013
comment
Я хотел знать, как извлечь файлы pagelinks.sql.gz и page.sql.gz из этого большого файла. эти два файла содержат все, что мне нужно для ввода в PageRank! - person Rishabh Arora; 03.07.2013