Статьи по теме pypdf

Вопросы по теме 'pypdf'

Скрипт Python для удаления пустых страниц с помощью pyPDF

Я пытаюсь написать пару скриптов python с использованием pyPDF, чтобы разделить страницы PDF на шесть отдельных страниц, правильно их упорядочить (обычно печатаются спереди и сзади, поэтому каждая другая страница должна иметь свои подстраницы...

6694 просмотров

31.10.2021

Обрезка страницы в Python с помощью pyPdf

Я пишу сценарий для извлечения данных из PDF. Сам PDF-файл довольно сложен, поскольку в нем несколько столбцов. Итак, я понял, что мне нужно обрезать каждый столбец и объединить столбцы, чтобы создать новый PDF-файл, который лучше анализировать с...

2272 просмотров

python pdf pypdf

11.09.2021

Объединение PDF-файлов с PyPDF2 со входными данными на основе файлового итератора

У меня есть две папки с файлами PDF с одинаковыми именами. Я хочу перебрать первую папку, получить первые 3 символа имени файла, сделать это имя текущей страницы, затем использовать это значение, чтобы захватить 2 соответствующих PDF-файла из обеих...

848 просмотров

python pdf pdf-generation pypdf

15.10.2021

Получение TypeError: ожидаемая строка ord () длиной 1, но int обнаружила ошибку

Код есть from PyPDF2 import PdfFileReader with open('HTTP_Book.pdf','rb') as file: pdf=PdfFileReader(file) pagedd=pdf.getPage(0) print(pagedd.extractText()) Этот код вызывает ошибку, показанную ниже: TypeError: ord() expected...

659 просмотров

python-3.x python pypdf

30.10.2021

Как отредактировать файл pdf, заменив его данные?

Я пытаюсь повернуть страницы в pdf-файле, а затем заменить старые страницы повернутыми в ТОМ ЖЕ pdf-файле. Я написал следующий код: #!/usr/bin/python import os from pyPdf import PdfFileReader, PdfFileWriter my_path =...

3503 просмотров

python pdf edit pypdf

26.02.2022

Слияние нестандартных PDF-файлов с pyPdf

Я хотел бы объединить пару файлов PDF в один документ PDF. Как оказалось, входные файлы не полностью соответствуют стандарту. За маркером EOF следует дополнительная информация: >> startxref 1994481 %%EOF %%PPIRoute: 4 Очевидно, это...

2163 просмотров

python pdf pypdf python-2.6

09.05.2022

Как извлечь язык из pdf-документа

Я пытаюсь извлечь язык любого общего PDF-документа и установить его в CMS с помощью python. Я пытаюсь извлечь его, используя атрибут /Lang, вот пример кода: pdfFileLang = findInDict('/Lang',pdfFile.resolvedObjects()) def...

1042 просмотров

python pdf pypdf

26.05.2022

Ошибка pyPdf неверный аргумент

На самом деле я использую pyPdf для открытия, чтения и записи содержимого файла PDF. для этого я использую эти строки кода: from pyPdf import PdfFileWriter, PdfFileReader pdf = PdfFileReader(file("/myPdfFile.pdf", "w+b")) content =...

2288 просмотров

python file pdf invalid-argument pypdf

12.07.2022

Как использовать глобальные переменные в tkinter и PyPDF2 для объединения файлов PDF

Я использую Python в течение очень короткого промежутка времени и не могу понять, что не так с этим кодом. Я не могу найти примеры, которые будут работать для моего кода, поэтому я спрашиваю здесь. import sys import os from PyPDF2 import...

797 просмотров

python-3.x tkinter pypdf

05.08.2022

Извлечь записи оглавления и номера страниц, на которые они ссылаются

У меня есть файл PDF , который содержит оглавление, где каждая запись ссылается на страницу в файле. Как мне запрограммировать на Python или Java (или на некоторых других языках), чтобы извлечь оглавление в следующей форме: entry1...

548 просмотров

python java pdf itext pypdf

13.08.2022

конвертировать из pdf в текст: строки и слова разбиваются

Я хочу преобразовать файл PDF в текст с помощью PyPDF2, но преобразованный текст отличается от файла PDF. В частности, одна строка в PDF разбивается на несколько строк в тексте, и слова также могут быть разбиты. Прикреплен PDF и текстовый файл,...

4759 просмотров

python-3.x python pypdf2 pypdf

19.08.2022

Какой программой писать pdf в том числе и другие pdf на Linux с Python?

На сервере Ubuntu я хочу создать PDF-файлы, включающие другие статические PDF-файлы. Я пытался использовать ReportLab с pyPdf. В идеале я бы использовал ReportLab, чтобы сделать все это, но для импорта pdf-файлов требуется их PageCatcher, который...

365 просмотров

python pdf reportlab pdf-generation pypdf

20.09.2023

что вызывает недостаточно данных для изображения в pdf

У меня есть программа на Python (использующая pyPDF), которая объединяет кучу разных PDF-документов. Иногда с полученным PDF-файлом все в порядке, за исключением нескольких пустых страниц посередине. Когда я просматриваю эти документы с помощью...

5942 просмотров

python pdf-generation pypdf

02.04.2023

Пробелы исчезли из извлечения PDF и странной интерпретации слов

Используя приведенный ниже фрагмент, я попытался извлечь текстовые данные из этот PDF-файл. import pyPdf def get_text(path): # Load PDF into pyPDF pdf = pyPdf.PdfFileReader(file(path, "rb")) # Iterate pages content = "" for...

16590 просмотров

python pdf unicode pypdf

22.07.2023

PdfReadWarning: объект потока/файла PdfFileReader не находится в двоичном режиме

У меня есть много страниц в формате PDF, которые я хочу объединить в один файл. Мой сценарий выглядит следующим образом: from PyPDF2 import PdfFileMerger,PdfFileReader filename_list=[] merger = PdfFileMerger() for i in range (0,66):...

10481 просмотров

python-2.7 pypdf

10.07.2023

PyPDF2 mergeTranslatedPage не работает с некоторыми PDF-файлами

С некоторыми входными файлами мое объединение 2 страниц в 1 страницу не удается. Я не могу понять, почему! Пример тестового кода: from PyPDF2 import PdfFileWriter, PdfFileReader import sys print ("2-up input " + sys.argv[1]) input1 =...

2333 просмотров

pdf pypdf

26.05.2023

Извлечение текста Python не работает в некоторых PDF-файлах

Я пытаюсь прочитать pdf через URL. Я следовал многим предложениям stackoverflow и использовал PyPdf2 FileReader для извлечения текста из pdf. Мой код выглядит так: url = "http://kat.kar.nic.in:8080/uploadedFiles/C_13052015_ch1_l1.pdf" #url =...

3712 просмотров

python pdf web-scraping pdfminer pypdf

15.10.2022

Ошибка Windows: 32 при попытке переименовать файл в python

Я пытаюсь переименовать некоторые PDF-файлы с помощью pyPdf, и мой код, кажется, работает нормально, пока не дойдет до предложения переименовать. Блок кода While/if ищет номер страницы, на которой находится строка «Эта строка», и при обнаружении...

1237 просмотров

python rename pypdf

28.08.2023

Как получить закладку PDF и добавить закладку в новый PDF?

Я объединяю один PDF-файл с другим в другой PDF-файл, он работает нормально, но в окончательном PDF-файле отсутствует закладка. Ниже приведен код создания PDF: #- Create One Page PDF with some text from reportlab.pdfgen import canvas as canx...

3700 просмотров

python pdf reportlab pypdf

12.05.2023

Python - Разделить PDF по страницам

Я использую PyPdf2 для разделения больших PDF на страницы. Проблема в том, что этот процесс очень медленный. Это код, который я использую: import os from PyPDF2 import PdfFileWriter, PdfFileReader with open(input_pdf_path, "rb") as...

7356 просмотров

python-3.x python pdf pypdf2 pypdf

27.07.2023