Я хотел бы знать, как такие сервисы, как A.nnotate.com, Scribd, Google Docs, преобразуют pdf, .doc или любой другой документ в HTML и как работает система аннотаций?
Какая технология используется в A.nnotate.com?
Ответы (1)
A.nnotate.com выполняет преобразование страниц PDF в изображения PNG на стороне сервера с заданным уровнем масштабирования с использованием xpdf — это то, что отображается в браузере.
Выделение текста выполняется путем извлечения текстовых позиций из PDF-файла, а затем добавления прозрачного наложения поверх изображений страницы с абсолютно позиционированными html DIVS поверх слов. Затем аннотации используют графический интерфейс ajax для прикрепления заметок к выделенному тексту.
Другие форматы (MS Word, PPT и т. д.) сначала преобразуются в PDF с помощью openoffice, а затем в изображения и текстовые наложения, как в PDF-файлах.
Я думаю, что другие сайты HTML-документов делают что-то подобное для рендеринга PDF-файлов как HTML (т. е. изображения страниц + наложение слов в виде прозрачных div-ов) — альтернативный трюк — конвертировать встроенные шрифты PDF в CSS-шрифты HTML5 и использовать абсолютно позиционированные div-ы для текста ( & извлечь и расположить изображения тоже).