использование набора данных википедии для рейтинга страниц в Hadoop

Я буду делать проект по рейтингу страниц и инвертированному индексированию набора данных википедии с использованием apache hadoop. Я скачал весь дамп вики - http://download.wikimedia.org/enwiki/latest/enwiki-latest-pages-article.xml.bz2. Он распаковывается до одного 42 Гб. xml-файл. Я хочу как-то обработать этот файл, чтобы получить данные, подходящие для ввода в алгоритмы pagerank и перевернутого индексирования. Пожалуйста помоги! Любые наводки будут полезны.

Rishabh Arora 02.07.2013 источник

comment

Если вы ищете информацию о том, какая страница ссылается на другую страницу той же вики, то эта информация содержится в дампе pagelinks (вам, вероятно, также понадобится дамп page). - svick 02.07.2013

comment

@svick- точно! но как мне извлечь эти 2 файла из 1 большого файла .xml размером 42 ГБ ?? - Rishabh Arora 03.07.2013

comment

Вы не знаете. Просто скачайте два дампа SQL. - svick 03.07.2013

comment

@svick-хорошо! Кроме того, мне нужно сделать инвертированное индексирование, для которого мне нужны все статьи в Википедии. как я могу получить это? Из того большого файла, который я скачал, или из любого другого отдельного файла??? - Rishabh Arora 04.07.2013

Ответы (2)

arrow_upward
0
arrow_downward

Вам нужно написать свой собственный формат ввода для обработки XML. Вам также потребуется реализовать RecordReader, чтобы убедиться, что ваши inputsplits имеют полностью сформированный фрагмент XML, а не только одну строку. См. http://www.undercloud.org/?p=408.

Arijit Banerjee 03.07.2013

comment

В ПОРЯДКЕ! Теперь я понимаю! Постараюсь реализовать в ближайшее время :). Спасибо!. Кроме того, есть ли какое-либо программное обеспечение, которое может открывать/редактировать эти большие файлы .xml (42 ГБ)??? - Rishabh Arora; 03.07.2013

comment

Редактировать файл размером 42 ГБ на одной машине было бы болезненно (поэтому мы используем MR). Если вы хотите извлечь образец, чтобы понять, как выглядит xml, попробуйте unix head или другие команды. - Arijit Banerjee; 04.07.2013

comment

Спасибо!! Вы были действительно полезны! - Rishabh Arora; 04.07.2013

arrow_upward
0
arrow_downward

Ваш вопрос мне не очень ясен. Какая идея вам нужна?

Самое первое, что вас поразит, это то, как вы собираетесь обрабатывать этот XML-файл в своей работе MR. Платформа MR не предоставляет встроенного InputFormat для XML-файлов. Для этого вы можете взглянуть на это.

Tariq 02.07.2013

comment

Я хотел знать, как извлечь файлы pagelinks.sql.gz и page.sql.gz из этого большого файла. эти два файла содержат все, что мне нужно для ввода в PageRank! - Rishabh Arora; 03.07.2013

использование набора данных википедии для рейтинга страниц в Hadoop

Ответы (2)

Вопросы по теме