Вопросы по теме 'pypdf'

Скрипт Python для удаления пустых страниц с помощью pyPDF
Я пытаюсь написать пару скриптов python с использованием pyPDF, чтобы разделить страницы PDF на шесть отдельных страниц, правильно их упорядочить (обычно печатаются спереди и сзади, поэтому каждая другая страница должна иметь свои подстраницы...
6694 просмотров
schedule 31.10.2021

Обрезка страницы в Python с помощью pyPdf
Я пишу сценарий для извлечения данных из PDF. Сам PDF-файл довольно сложен, поскольку в нем несколько столбцов. Итак, я понял, что мне нужно обрезать каждый столбец и объединить столбцы, чтобы создать новый PDF-файл, который лучше анализировать с...
2272 просмотров
schedule 11.09.2021

Объединение PDF-файлов с PyPDF2 со входными данными на основе файлового итератора
У меня есть две папки с файлами PDF с одинаковыми именами. Я хочу перебрать первую папку, получить первые 3 символа имени файла, сделать это имя текущей страницы, затем использовать это значение, чтобы захватить 2 соответствующих PDF-файла из обеих...
848 просмотров
schedule 15.10.2021

Получение TypeError: ожидаемая строка ord () длиной 1, но int обнаружила ошибку
Код есть from PyPDF2 import PdfFileReader with open('HTTP_Book.pdf','rb') as file: pdf=PdfFileReader(file) pagedd=pdf.getPage(0) print(pagedd.extractText()) Этот код вызывает ошибку, показанную ниже: TypeError: ord() expected...
659 просмотров
schedule 30.10.2021

Как отредактировать файл pdf, заменив его данные?
Я пытаюсь повернуть страницы в pdf-файле, а затем заменить старые страницы повернутыми в ТОМ ЖЕ pdf-файле. Я написал следующий код: #!/usr/bin/python import os from pyPdf import PdfFileReader, PdfFileWriter my_path =...
3503 просмотров
schedule 26.02.2022

Слияние нестандартных PDF-файлов с pyPdf
Я хотел бы объединить пару файлов PDF в один документ PDF. Как оказалось, входные файлы не полностью соответствуют стандарту. За маркером EOF следует дополнительная информация: >> startxref 1994481 %%EOF %%PPIRoute: 4 Очевидно, это...
2163 просмотров
schedule 09.05.2022

Как извлечь язык из pdf-документа
Я пытаюсь извлечь язык любого общего PDF-документа и установить его в CMS с помощью python. Я пытаюсь извлечь его, используя атрибут /Lang, вот пример кода: pdfFileLang = findInDict('/Lang',pdfFile.resolvedObjects()) def...
1042 просмотров
schedule 26.05.2022

Ошибка pyPdf неверный аргумент
На самом деле я использую pyPdf для открытия, чтения и записи содержимого файла PDF. для этого я использую эти строки кода: from pyPdf import PdfFileWriter, PdfFileReader pdf = PdfFileReader(file("/myPdfFile.pdf", "w+b")) content =...
2288 просмотров
schedule 12.07.2022

Как использовать глобальные переменные в tkinter и PyPDF2 для объединения файлов PDF
Я использую Python в течение очень короткого промежутка времени и не могу понять, что не так с этим кодом. Я не могу найти примеры, которые будут работать для моего кода, поэтому я спрашиваю здесь. import sys import os from PyPDF2 import...
797 просмотров
schedule 05.08.2022

Извлечь записи оглавления и номера страниц, на которые они ссылаются
У меня есть файл PDF , который содержит оглавление, где каждая запись ссылается на страницу в файле. Как мне запрограммировать на Python или Java (или на некоторых других языках), чтобы извлечь оглавление в следующей форме: entry1...
548 просмотров
schedule 13.08.2022

конвертировать из pdf в текст: строки и слова разбиваются
Я хочу преобразовать файл PDF в текст с помощью PyPDF2, но преобразованный текст отличается от файла PDF. В частности, одна строка в PDF разбивается на несколько строк в тексте, и слова также могут быть разбиты. Прикреплен PDF и текстовый файл,...
4759 просмотров
schedule 19.08.2022

Какой программой писать pdf в том числе и другие pdf на Linux с Python?
На сервере Ubuntu я хочу создать PDF-файлы, включающие другие статические PDF-файлы. Я пытался использовать ReportLab с pyPdf. В идеале я бы использовал ReportLab, чтобы сделать все это, но для импорта pdf-файлов требуется их PageCatcher, который...
365 просмотров
schedule 20.09.2023

что вызывает недостаточно данных для изображения в pdf
У меня есть программа на Python (использующая pyPDF), которая объединяет кучу разных PDF-документов. Иногда с полученным PDF-файлом все в порядке, за исключением нескольких пустых страниц посередине. Когда я просматриваю эти документы с помощью...
5942 просмотров
schedule 02.04.2023

Пробелы исчезли из извлечения PDF и странной интерпретации слов
Используя приведенный ниже фрагмент, я попытался извлечь текстовые данные из этот PDF-файл. import pyPdf def get_text(path): # Load PDF into pyPDF pdf = pyPdf.PdfFileReader(file(path, "rb")) # Iterate pages content = "" for...
16590 просмотров
schedule 22.07.2023

PdfReadWarning: объект потока/файла PdfFileReader не находится в двоичном режиме
У меня есть много страниц в формате PDF, которые я хочу объединить в один файл. Мой сценарий выглядит следующим образом: from PyPDF2 import PdfFileMerger,PdfFileReader filename_list=[] merger = PdfFileMerger() for i in range (0,66):...
10481 просмотров
schedule 10.07.2023

PyPDF2 mergeTranslatedPage не работает с некоторыми PDF-файлами
С некоторыми входными файлами мое объединение 2 страниц в 1 страницу не удается. Я не могу понять, почему! Пример тестового кода: from PyPDF2 import PdfFileWriter, PdfFileReader import sys print ("2-up input " + sys.argv[1]) input1 =...
2333 просмотров
schedule 26.05.2023

Извлечение текста Python не работает в некоторых PDF-файлах
Я пытаюсь прочитать pdf через URL. Я следовал многим предложениям stackoverflow и использовал PyPdf2 FileReader для извлечения текста из pdf. Мой код выглядит так: url = "http://kat.kar.nic.in:8080/uploadedFiles/C_13052015_ch1_l1.pdf" #url =...
3712 просмотров
schedule 15.10.2022

Ошибка Windows: 32 при попытке переименовать файл в python
Я пытаюсь переименовать некоторые PDF-файлы с помощью pyPdf, и мой код, кажется, работает нормально, пока не дойдет до предложения переименовать. Блок кода While/if ищет номер страницы, на которой находится строка «Эта строка», и при обнаружении...
1237 просмотров
schedule 28.08.2023

Как получить закладку PDF и добавить закладку в новый PDF?
Я объединяю один PDF-файл с другим в другой PDF-файл, он работает нормально, но в окончательном PDF-файле отсутствует закладка. Ниже приведен код создания PDF: #- Create One Page PDF with some text from reportlab.pdfgen import canvas as canx...
3700 просмотров
schedule 12.05.2023

Python - Разделить PDF по страницам
Я использую PyPdf2 для разделения больших PDF на страницы. Проблема в том, что этот процесс очень медленный. Это код, который я использую: import os from PyPDF2 import PdfFileWriter, PdfFileReader with open(input_pdf_path, "rb") as...
7356 просмотров
schedule 27.07.2023