Вопросы по теме 'pypdf'
Скрипт Python для удаления пустых страниц с помощью pyPDF
Я пытаюсь написать пару скриптов python с использованием pyPDF, чтобы разделить страницы PDF на шесть отдельных страниц, правильно их упорядочить (обычно печатаются спереди и сзади, поэтому каждая другая страница должна иметь свои подстраницы...
6694 просмотров
schedule
31.10.2021
Обрезка страницы в Python с помощью pyPdf
Я пишу сценарий для извлечения данных из PDF. Сам PDF-файл довольно сложен, поскольку в нем несколько столбцов. Итак, я понял, что мне нужно обрезать каждый столбец и объединить столбцы, чтобы создать новый PDF-файл, который лучше анализировать с...
2272 просмотров
schedule
11.09.2021
Объединение PDF-файлов с PyPDF2 со входными данными на основе файлового итератора
У меня есть две папки с файлами PDF с одинаковыми именами. Я хочу перебрать первую папку, получить первые 3 символа имени файла, сделать это имя текущей страницы, затем использовать это значение, чтобы захватить 2 соответствующих PDF-файла из обеих...
848 просмотров
schedule
15.10.2021
Получение TypeError: ожидаемая строка ord () длиной 1, но int обнаружила ошибку
Код есть
from PyPDF2 import PdfFileReader
with open('HTTP_Book.pdf','rb') as file:
pdf=PdfFileReader(file)
pagedd=pdf.getPage(0)
print(pagedd.extractText())
Этот код вызывает ошибку, показанную ниже:
TypeError: ord() expected...
659 просмотров
schedule
30.10.2021
Как отредактировать файл pdf, заменив его данные?
Я пытаюсь повернуть страницы в pdf-файле, а затем заменить старые страницы повернутыми в ТОМ ЖЕ pdf-файле.
Я написал следующий код:
#!/usr/bin/python
import os
from pyPdf import PdfFileReader, PdfFileWriter
my_path =...
3503 просмотров
schedule
26.02.2022
Слияние нестандартных PDF-файлов с pyPdf
Я хотел бы объединить пару файлов PDF в один документ PDF. Как оказалось, входные файлы не полностью соответствуют стандарту. За маркером EOF следует дополнительная информация:
>>
startxref
1994481
%%EOF
%%PPIRoute: 4
Очевидно, это...
2163 просмотров
schedule
09.05.2022
Как извлечь язык из pdf-документа
Я пытаюсь извлечь язык любого общего PDF-документа и установить его в CMS с помощью python. Я пытаюсь извлечь его, используя атрибут /Lang, вот пример кода:
pdfFileLang = findInDict('/Lang',pdfFile.resolvedObjects())
def...
1042 просмотров
schedule
26.05.2022
Ошибка pyPdf неверный аргумент
На самом деле я использую pyPdf для открытия, чтения и записи содержимого файла PDF.
для этого я использую эти строки кода:
from pyPdf import PdfFileWriter, PdfFileReader
pdf = PdfFileReader(file("/myPdfFile.pdf", "w+b"))
content =...
2288 просмотров
schedule
12.07.2022
Как использовать глобальные переменные в tkinter и PyPDF2 для объединения файлов PDF
Я использую Python в течение очень короткого промежутка времени и не могу понять, что не так с этим кодом. Я не могу найти примеры, которые будут работать для моего кода, поэтому я спрашиваю здесь.
import sys
import os
from PyPDF2 import...
797 просмотров
schedule
05.08.2022
Извлечь записи оглавления и номера страниц, на которые они ссылаются
У меня есть файл PDF , который содержит оглавление, где каждая запись ссылается на страницу в файле.
Как мне запрограммировать на Python или Java (или на некоторых других языках), чтобы извлечь оглавление в следующей форме:
entry1...
548 просмотров
schedule
13.08.2022
конвертировать из pdf в текст: строки и слова разбиваются
Я хочу преобразовать файл PDF в текст с помощью PyPDF2, но преобразованный текст отличается от файла PDF. В частности, одна строка в PDF разбивается на несколько строк в тексте, и слова также могут быть разбиты. Прикреплен PDF и текстовый файл,...
4759 просмотров
schedule
19.08.2022
Какой программой писать pdf в том числе и другие pdf на Linux с Python?
На сервере Ubuntu я хочу создать PDF-файлы, включающие другие статические PDF-файлы. Я пытался использовать ReportLab с pyPdf. В идеале я бы использовал ReportLab, чтобы сделать все это, но для импорта pdf-файлов требуется их PageCatcher, который...
365 просмотров
schedule
20.09.2023
что вызывает недостаточно данных для изображения в pdf
У меня есть программа на Python (использующая pyPDF), которая объединяет кучу разных PDF-документов. Иногда с полученным PDF-файлом все в порядке, за исключением нескольких пустых страниц посередине. Когда я просматриваю эти документы с помощью...
5942 просмотров
schedule
02.04.2023
Пробелы исчезли из извлечения PDF и странной интерпретации слов
Используя приведенный ниже фрагмент, я попытался извлечь текстовые данные из этот PDF-файл.
import pyPdf
def get_text(path):
# Load PDF into pyPDF
pdf = pyPdf.PdfFileReader(file(path, "rb"))
# Iterate pages
content = ""
for...
16590 просмотров
schedule
22.07.2023
PdfReadWarning: объект потока/файла PdfFileReader не находится в двоичном режиме
У меня есть много страниц в формате PDF, которые я хочу объединить в один файл.
Мой сценарий выглядит следующим образом:
from PyPDF2 import PdfFileMerger,PdfFileReader
filename_list=[]
merger = PdfFileMerger()
for i in range (0,66):...
10481 просмотров
schedule
10.07.2023
PyPDF2 mergeTranslatedPage не работает с некоторыми PDF-файлами
С некоторыми входными файлами мое объединение 2 страниц в 1 страницу не удается. Я не могу понять, почему! Пример тестового кода:
from PyPDF2 import PdfFileWriter, PdfFileReader
import sys
print ("2-up input " + sys.argv[1])
input1 =...
2333 просмотров
schedule
26.05.2023
Извлечение текста Python не работает в некоторых PDF-файлах
Я пытаюсь прочитать pdf через URL. Я следовал многим предложениям stackoverflow и использовал PyPdf2 FileReader для извлечения текста из pdf. Мой код выглядит так:
url = "http://kat.kar.nic.in:8080/uploadedFiles/C_13052015_ch1_l1.pdf"
#url =...
3712 просмотров
schedule
15.10.2022
Ошибка Windows: 32 при попытке переименовать файл в python
Я пытаюсь переименовать некоторые PDF-файлы с помощью pyPdf, и мой код, кажется, работает нормально, пока не дойдет до предложения переименовать. Блок кода While/if ищет номер страницы, на которой находится строка «Эта строка», и при обнаружении...
1237 просмотров
schedule
28.08.2023
Как получить закладку PDF и добавить закладку в новый PDF?
Я объединяю один PDF-файл с другим в другой PDF-файл, он работает нормально, но в окончательном PDF-файле отсутствует закладка.
Ниже приведен код создания PDF:
#- Create One Page PDF with some text
from reportlab.pdfgen import canvas as canx...
3700 просмотров
schedule
12.05.2023
Python - Разделить PDF по страницам
Я использую PyPdf2 для разделения больших PDF на страницы. Проблема в том, что этот процесс очень медленный.
Это код, который я использую:
import os
from PyPDF2 import PdfFileWriter, PdfFileReader
with open(input_pdf_path, "rb") as...
7356 просмотров
schedule
27.07.2023