Как преобразовать многостраничный pdf в один html файл

Я реализую метод poppler pdftohtml для преобразования pdf в html. Я пытаюсь запустить файл exec через python.

import subprocess

subprocess.Popen([r"D:/poppler-0.68.0/bin/pdftohtml.exe" , 'name.pdf', 'name.html'])

Используя приведенный выше код, я получаю свой html-файл, а также изображения (.jpg) каждой страницы в формате pdf.

Мне нужен только файл html, а не изображения. Какие изменения/аргументы я должен внести/добавить, чтобы получить ожидаемый результат?

python poppler

DGS 02.04.2019 источник

Ответы (1)

arrow_upward
0
arrow_downward

Согласно их документации может быть два варианта, которые может помочь вам с этим:

-i ignore images

а также

-s generate single HTML that includes all pages

Если они не работают, вы ничего не можете сделать.

andreihondrari 02.04.2019

comment

Спасибо. оно работает. Я получаю html-страницу на выходе с серым фоном и черным цветом. Мой pdf содержит страницы с белым фоном и черным текстом. Также страница кажется выровненной по левому краю. Знаете почему? - DGS; 02.04.2019

comment

@DGS Я бы предположил, что это из-за того, как инструмент pdftohtml его отображает. Теоретически вы можете открыть HTML-код в python и удалить любой встроенный стиль, который имеет background-color, который применяется к body или какому-либо другому основному контейнеру, при условии, конечно, что все PDF-файлы имеют белый фон. - andreihondrari; 02.04.2019

comment

Я обнаружил, что только после добавления -i к аргументам фон становится серым. - DGS; 02.04.2019

Как преобразовать многостраничный pdf в один html файл

Ответы (1)

Вопросы по теме