Я буду делать проект по рейтингу страниц и инвертированному индексированию набора данных википедии с использованием apache hadoop. Я скачал весь дамп вики - http://download.wikimedia.org/enwiki/latest/enwiki-latest-pages-article.xml.bz2. Он распаковывается до одного 42 Гб. xml-файл. Я хочу как-то обработать этот файл, чтобы получить данные, подходящие для ввода в алгоритмы pagerank и перевернутого индексирования. Пожалуйста помоги! Любые наводки будут полезны.
использование набора данных википедии для рейтинга страниц в Hadoop
Ответы (2)
Вам нужно написать свой собственный формат ввода для обработки XML. Вам также потребуется реализовать RecordReader, чтобы убедиться, что ваши inputsplits имеют полностью сформированный фрагмент XML, а не только одну строку. См. http://www.undercloud.org/?p=408.
person
Arijit Banerjee
schedule
03.07.2013
В ПОРЯДКЕ! Теперь я понимаю! Постараюсь реализовать в ближайшее время :). Спасибо!. Кроме того, есть ли какое-либо программное обеспечение, которое может открывать/редактировать эти большие файлы .xml (42 ГБ)???
- person Rishabh Arora; 03.07.2013
Редактировать файл размером 42 ГБ на одной машине было бы болезненно (поэтому мы используем MR). Если вы хотите извлечь образец, чтобы понять, как выглядит xml, попробуйте unix head или другие команды.
- person Arijit Banerjee; 04.07.2013
Спасибо!! Вы были действительно полезны!
- person Rishabh Arora; 04.07.2013
Ваш вопрос мне не очень ясен. Какая идея вам нужна?
Самое первое, что вас поразит, это то, как вы собираетесь обрабатывать этот XML-файл в своей работе MR. Платформа MR не предоставляет встроенного InputFormat для XML-файлов. Для этого вы можете взглянуть на это.
person
Tariq
schedule
02.07.2013
Я хотел знать, как извлечь файлы pagelinks.sql.gz и page.sql.gz из этого большого файла. эти два файла содержат все, что мне нужно для ввода в PageRank!
- person Rishabh Arora; 03.07.2013
pagelinks
(вам, вероятно, также понадобится дампpage
). - person svick   schedule 02.07.2013