Как редактировать редактируемый pdf с помощью библиотеки pdfrw?

Я изучал, как редактировать PDF с помощью Python, и нашел эту статью:
Как заполнить заполняемые PDF-файлы с Python

Однако возникает проблема, когда программа запускается и вы открываете PDF-файл, документ не заполняется, только когда вы нажимаете на теги, он показывает данные, а когда вы нажимаете, он снова исчезает. Это код, написанный кем-то другим, который можно найти в Интернете.

#! /usr/bin/python

import os
import pdfrw


INVOICE_TEMPLATE_PATH = 'invoice_template.pdf'
INVOICE_OUTPUT_PATH = 'invoice.pdf'


ANNOT_KEY = '/Annots'
ANNOT_FIELD_KEY = '/T'
ANNOT_VAL_KEY = '/V'
ANNOT_RECT_KEY = '/Rect'
SUBTYPE_KEY = '/Subtype'
WIDGET_SUBTYPE_KEY = '/Widget'


def write_fillable_pdf(input_pdf_path, output_pdf_path, data_dict):
    template_pdf = pdfrw.PdfReader(input_pdf_path)
    annotations = template_pdf.pages[0][ANNOT_KEY]
    for annotation in annotations:
        if annotation[SUBTYPE_KEY] == WIDGET_SUBTYPE_KEY:
            if annotation[ANNOT_FIELD_KEY]:
                key = annotation[ANNOT_FIELD_KEY][1:-1]
                if key in data_dict.keys():
                    annotation.update(
                        pdfrw.PdfDict(V='{}'.format(data_dict[key]))
                    )
    pdfrw.PdfWriter().write(output_pdf_path, template_pdf)


data_dict = {
   'business_name_1': 'Bostata',
   'customer_name': 'company.io',
   'customer_email': '[email protected]',
   'invoice_number': '102394',
   'send_date': '2018-02-13',
   'due_date': '2018-03-13',
   'note_contents': 'Thank you for your business, Joe',
   'item_1': 'Data consulting services',
   'item_1_quantity': '10 hours',
   'item_1_price': '$200/hr',
   'item_1_amount': '$2000',
   'subtotal': '$2000',
   'tax': '0',
   'discounts': '0',
   'total': '$2000',
   'business_name_2': 'Bostata LLC',
   'business_email_address': '[email protected]',
   'business_phone_number': '(617) 930-4294'
}

if __name__ == '__main__':
    write_fillable_pdf(INVOICE_TEMPLATE_PATH, INVOICE_OUTPUT_PATH, data_dict)

person John    schedule 20.01.2019    source источник
comment
такая же проблема у меня, вы нашли решение?   -  person gustavz    schedule 09.08.2019


Ответы (4)


Я понимаю, что если вы добавите параметр NeedAppearances, вы решите свою проблему:

template_pdf = pdfrw.PdfReader(TEMPLATE_PATH)
template_pdf.Root.AcroForm.update(pdfrw.PdfDict(NeedAppearances=pdfrw.PdfObject('true'))) 
person Sergio Sánchez    schedule 14.05.2019
comment
Не уверен, почему за него проголосовали. Ваше решение устранило указанную выше проблему для меня @Sergio Sanchez. Благодарю вас! Это также было опубликовано TLK3 здесь github.com/pmaupin/pdfrw/issues/84. - person Gopinath S; 26.01.2020

Обновление функции записи, чтобы иметь клавиши AP и V, устранило проблему для меня в предварительном просмотре.

pdfrw.PdfDict(AP=data_dict[key], V=data_dict[key])
person pullyl    schedule 08.09.2019

Ошибка заключается в том, что с полем не связан поток появления, но вы создали его неправильным образом. Вы только что назначили и транслировали словарь AP. Что вам нужно сделать, так это присвоить косвенный Xobject /N в словаре /AP; и вам нужно создать Xobject с нуля. Код должен быть примерно таким:

from pdfrw import PdfWriter, PdfReader, IndirectPdfDict, PdfName, PdfDict

INVOICE_TEMPLATE_PATH = 'untitled.pdf'
INVOICE_OUTPUT_PATH = 'untitled-output.pdf'

field1value = 'im field_1 value'

template_pdf = PdfReader(INVOICE_TEMPLATE_PATH)
template_pdf.Root.AcroForm.Fields[0].V = field1value

#this depends on page orientation
rct = template_pdf.Root.AcroForm.Fields[0].Rect
hight = round(float(rct[3]) - float(rct[1]),2)
width =(round(float(rct[2]) - float(rct[0]),2)

#create Xobject
xobj = IndirectPdfDict(
            BBox = [0, 0, width, hight],
            FormType = 1,
            Resources = PdfDict(ProcSet = [PdfName.PDF, PdfName.Text]),
            Subtype = PdfName.Form,
            Type = PdfName.XObject
            )

#assign a stream to it
xobj.stream = '''/Tx BMC
BT
 /Helvetica 8.0 Tf
 1.0 5.0 Td
 0 g
 (''' + field1value + ''') Tj
ET EMC'''

#put all together
template_pdf.Root.AcroForm.Fields[0].AP = PdfDict(N = xobj)

#output to new file
PdfWriter().write(INVOICE_OUTPUT_PATH, template_pdf)

Примечание. Для справки: /Type, /FormType, /Resorces являются необязательными (настоятельно рекомендуется использовать /Resources).

person Strayhorn    schedule 25.02.2020

Чтобы расширить ответ Серджио выше, следующая строка:

template_pdf.Root.AcroForm.update(pdfrw.PdfDict(NeedAppearances=pdfrw.PdfObject('true')))

Следует поставить после этой строки в примере кода из OP:

template_pdf = pdfrw.PdfReader(input_pdf_path)
person Mike    schedule 05.06.2020
comment
Ответы должны быть автономными, а не добавляться к другим ответам. Кроме того, информация, которую вы пытаетесь добавить, уже содержится в исходном ответе. Поскольку этот первоначальный ответ уже получил значительное одобрение, а это означает, что его намерение, вероятно, было ясно с самого начала, ваше добавление не только неуместно, но и несколько избыточно. - person Amitai Irron; 05.06.2020