как сделать постформатирование для преобразования DOC/DOCX в HTML?

В настоящее время я использую OpenOffice (командная строка) и JODConvertor для преобразования документов Word (как .doc, так и .docx) в HTML для веб-приложения, которое я размещаю. Он отлично работает, за исключением одной проблемы — HTML-файлы неправильно отформатированы с точки зрения полей. Хуже того, поля несовместимы между операционными системами (MacOS и Windows) и браузерами.

Есть ли другой инструмент, который выполняет постформатирование (я думаю, это включает в себя переписывание CSS преобразованного HTML-документа), очень похожее на Google Docs?

Я не пытаюсь быть еще одним Google Docs, я просто хочу имитировать только их процесс постформатирования (точнее, форматирование ширины полей), чтобы пользователи могли загружать и хранить HTML-документы в моем собственном сервисе. Мне нужно, чтобы это был автоматизированный процесс, независимый от каких-либо сторонних сайтов (я знаю, что у Google есть API, называемый googlecl, но он требует аутентификации, и вы становитесь зависимым от их серверов и служб; не говоря уже о том, что у вас есть квота ).

Если кто-нибудь знает какой-либо другой метод, кроме маршрута OpenOffice, я открыт для предложений.


person James Nine    schedule 05.06.2011    source источник
comment
В Документах Google есть функция экспорта в HTML, вы можете попробовать это   -  person Colum    schedule 06.06.2011
comment
Мне нужен более автоматизированный процесс без просмотра документов Google через командную строку.   -  person James Nine    schedule 06.06.2011


Ответы (1)


Кажется, лучше всего было бы добавить в JODConverter функцию, позволяющую вставлять собственный CSS во время экспорта. Что-то вроде следующего для всех страниц:

body {
     margin: 50px !important;
 }

Либо убедите сопровождающего JODConverter, либо возьмите код и соберите его самостоятельно. Удачи.

person Mike    schedule 25.06.2011
comment
Да, это то, что я делал; Я выполняю постформатную обработку на стороне сервера после преобразования HTML-файла, который занимает около 20 строк, но, к сожалению, он не охватывает все сценарии. Должен быть универсальный подход, а не писать несколько десятков строк кода для каждого поступающего документа? Опять же, просто смотрю, есть ли какая-то автоматизированная процедура... - person James Nine; 26.06.2011