Как преобразовать многостраничный pdf в один html файл

Я реализую метод poppler pdftohtml для преобразования pdf в html. Я пытаюсь запустить файл exec через python.

import subprocess

subprocess.Popen([r"D:/poppler-0.68.0/bin/pdftohtml.exe" , 'name.pdf', 'name.html'])

Используя приведенный выше код, я получаю свой html-файл, а также изображения (.jpg) каждой страницы в формате pdf.

Мне нужен только файл html, а не изображения. Какие изменения/аргументы я должен внести/добавить, чтобы получить ожидаемый результат?


person DGS    schedule 02.04.2019    source источник


Ответы (1)


Согласно их документации может быть два варианта, которые может помочь вам с этим:

-i ignore images

а также

-s generate single HTML that includes all pages

Если они не работают, вы ничего не можете сделать.

person andreihondrari    schedule 02.04.2019
comment
Спасибо. оно работает. Я получаю html-страницу на выходе с серым фоном и черным цветом. Мой pdf содержит страницы с белым фоном и черным текстом. Также страница кажется выровненной по левому краю. Знаете почему? - person DGS; 02.04.2019
comment
@DGS Я бы предположил, что это из-за того, как инструмент pdftohtml его отображает. Теоретически вы можете открыть HTML-код в python и удалить любой встроенный стиль, который имеет background-color, который применяется к body или какому-либо другому основному контейнеру, при условии, конечно, что все PDF-файлы имеют белый фон. - person andreihondrari; 02.04.2019
comment
Я обнаружил, что только после добавления -i к аргументам фон становится серым. - person DGS; 02.04.2019