Какой самый простой способ преобразовать дамп данных SO из HTML обратно в Markdown?

Я только что получил в руки дамп данных Stackoverflow, и я разочарован, увидев это поле Body сообщений находится в HTML, а не в Markdown. Я подозреваю, что в исходной базе данных есть Markdown, потому что это то, что я увижу, если попытаюсь отредактировать ответ.

Я хочу восстановить Markdown из большого набора ответов. Я буду обрабатывать сотни записей в пакетном режиме, используя инструменты командной строки или какую-то библиотеку Lua или C, поэтому интерактивный инструмент, такой как wmd Markdown Editor не подходит. Могут ли люди сказать, какие инструменты доступны для восстановления Markdown из дампа данных Stackoverflow?


(Связанный вопрос, не дубликат: Конвертировать HTML обратно в Markdown в пределах wmd.)


person Norman Ramsey    schedule 20.08.2009    source источник


Ответы (2)


Markdownify преобразует HTML в Markdown.

См. также: MetaSO / Можно ли восстановить Markdown из дампа данных SO?

person Sampson    schedule 20.08.2009
comment
Когда дело доходит до использования PHP в командной строке, я троглодит. Я не могу понять из руководства, есть ли функция библиотеки для чтения всего содержимого файла. На правильном ли пути является dio_read (STDIN)? - person Norman Ramsey; 21.08.2009
comment
Если вы хотите прочитать содержимое файла, есть много способов - простая функция, которая это делает, file_get_contents(); - person Sampson; 21.08.2009

взгляните на pandoc: http://johnmacfarlane.net/pandoc/

в pandoc входит инструмент html2markdown, который работает очень хорошо, а программа запускается из командной строки, что делает пакетное преобразование довольно приятным.

вот страница руководства: http://johnmacfarlane.net/pandoc/html2markdown.1.html < / а>

person Mica    schedule 15.09.2009
comment
Выглядит потрясающе! Я обязательно это проверю. - person Norman Ramsey; 19.09.2009