Статьи по теме pdf-parsing

Вопросы по теме 'pdf-parsing'

Попытка аннотировать PDF-файл с помощью потоков XREF

У меня есть этот образец PDF-файла: Исходный файл к которому я пытался прикрепить текстовую аннотацию, что привело к следующему: Аннотированный файл Однако предварительный просмотр в MAC OSX по-прежнему показывает документ без новой...

796 просмотров

pdf pdf-generation pdf-parsing

30.11.2021

Как читать содержимое PDF в селене

Я пытаюсь проверить содержимое в PDF, я получаю URL-адрес с помощью href и передаю его в приведенном ниже коде. URL-адрес с HTTPS, поэтому я столкнулся с проблемой ниже. Может ли кто-нибудь помочь мне, как действовать, и помочь мне прочитать данные...

76 просмотров

java html selenium selenium-webdriver pdf-parsing

16.06.2022

Извлечение текста PDF с помощью Python3.4

Тексты в pdf-файлах представлены в текстовом формате, а не в отсканированном виде. PDFMiner не поддерживает python3, есть ли другие решения?

2999 просмотров

python-3.x pdf pdfminer pdf-parsing

19.06.2022

Ruby: чтение PDF-файлов

Я ищу быстрый и надежный способ чтения/анализа больших файлов PDF в Ruby (в Linux и OSX). До сих пор я находил довольно старый и простой PDF-toolkit ( pdftotext -wrapper) и Программа чтения PDF , которая не смогла прочитать большинство моих...

26088 просмотров

ruby ruby-on-rails pdf pdf-parsing

17.09.2022

Разбор файла PDF с использованием IText для добавления гиперссылки в существующие тексты

Я знаю, что PDF-файлы не предназначены для редактирования, но у меня есть требование, когда мне нужно проанализировать PDF-файл и изменить его, чтобы преобразовать все текстовые элементы в гиперссылку. Есть ли способ добиться этого? Огромное...

590 просмотров

java itext pdfbox pdf-parsing

13.11.2022

Извлечение элементов Pdf с помощью .net

Ищем бесплатную/платную библиотеку .net для извлечения элементов текста/графики/изображения из данного документа Acrobat (.pdf), предпочтительно в виде объектной модели, чтобы мы могли перевести ее в другой формат, понятный проприетарному редактору...

110 просмотров

pdf .net acrobat object-model pdf-parsing

24.11.2022

Как получить изображение из локального каталога в формате PDF, созданном с помощью ITextRenderer?

Я разбираю pdf из html с помощью ITextRenderer следующим образом: private void createPdf(File file, String content) throws IOException, DocumentException { OutputStream os = new FileOutputStream(file); content =...

866 просмотров

java image itext html-parsing pdf-parsing

22.01.2023

AttributeError: объект 'bytes' не имеет атрибута 'close' при запуске парсера Tika

Я пытаюсь запустить простую строку синтаксического анализа с помощью Tika для синтаксического анализа текста из PDF (в этом примере с именем outputFileName). Раньше это работало без ошибок. Недавно я отправил свой ноутбук в нашу рабочую ИТ-службу...

1713 просмотров

python parsing apache-tika tika-server pdf-parsing

22.07.2023

Как определить начало таблицы в itextSharp?

Я пытаюсь преобразовать pdf в файл csv. pdf файл имеет данные в табличном формате с первой строкой в качестве заголовка. Я достиг уровня, на котором я могу извлечь текст из ячейки, сравнить базовую линию текста в таблице и определить новую строку,...

5450 просмотров

csv pdf pdf-reader pdf-parsing itextsharp

07.12.2023

Получить крайнее правое, левое, верхнее, нижнее положение изображения - Itext

Я устанавливаю поле для pdf и проверяю, превышает ли содержимое страницы поле. Я легко могу это сделать, если содержимое страницы представляет собой просто текст. Вот что я делаю: Я использую TextMarginFinder . Я устанавливаю значения...

1554 просмотров

java pdf itext pdfrenderer pdf-parsing

28.03.2024

разбор pdf-файла с кликабельной страницей содержимого

Допустим, у нас есть pdf-файл с кликабельной страницей содержимого. (Я говорю о главах и подразделах). Как этот определенный файл может быть проанализирован на С# и как приложение может понять, есть ли в читаемом PDF-файле главы/содержимое или нет?...

4628 просмотров

pdf c# c#-4.0 pdf-parsing

17.05.2024