Вопросы по теме 'pdf-parsing'

Попытка аннотировать PDF-файл с помощью потоков XREF
У меня есть этот образец PDF-файла: Исходный файл к которому я пытался прикрепить текстовую аннотацию, что привело к следующему: Аннотированный файл Однако предварительный просмотр в MAC OSX по-прежнему показывает документ без новой...
796 просмотров
schedule 30.11.2021

Как читать содержимое PDF в селене
Я пытаюсь проверить содержимое в PDF, я получаю URL-адрес с помощью href и передаю его в приведенном ниже коде. URL-адрес с HTTPS, поэтому я столкнулся с проблемой ниже. Может ли кто-нибудь помочь мне, как действовать, и помочь мне прочитать данные...
76 просмотров

Извлечение текста PDF с помощью Python3.4
Тексты в pdf-файлах представлены в текстовом формате, а не в отсканированном виде. PDFMiner не поддерживает python3, есть ли другие решения?
2999 просмотров
schedule 19.06.2022

Ruby: чтение PDF-файлов
Я ищу быстрый и надежный способ чтения/анализа больших файлов PDF в Ruby (в Linux и OSX). До сих пор я находил довольно старый и простой PDF-toolkit ( pdftotext -wrapper) и Программа чтения PDF , которая не смогла прочитать большинство моих...
26088 просмотров
schedule 17.09.2022

Разбор файла PDF с использованием IText для добавления гиперссылки в существующие тексты
Я знаю, что PDF-файлы не предназначены для редактирования, но у меня есть требование, когда мне нужно проанализировать PDF-файл и изменить его, чтобы преобразовать все текстовые элементы в гиперссылку. Есть ли способ добиться этого? Огромное...
590 просмотров
schedule 13.11.2022

Извлечение элементов Pdf с помощью .net
Ищем бесплатную/платную библиотеку .net для извлечения элементов текста/графики/изображения из данного документа Acrobat (.pdf), предпочтительно в виде объектной модели, чтобы мы могли перевести ее в другой формат, понятный проприетарному редактору...
110 просмотров
schedule 24.11.2022

Как получить изображение из локального каталога в формате PDF, созданном с помощью ITextRenderer?
Я разбираю pdf из html с помощью ITextRenderer следующим образом: private void createPdf(File file, String content) throws IOException, DocumentException { OutputStream os = new FileOutputStream(file); content =...
866 просмотров
schedule 22.01.2023

AttributeError: объект 'bytes' не имеет атрибута 'close' при запуске парсера Tika
Я пытаюсь запустить простую строку синтаксического анализа с помощью Tika для синтаксического анализа текста из PDF (в этом примере с именем outputFileName). Раньше это работало без ошибок. Недавно я отправил свой ноутбук в нашу рабочую ИТ-службу...
1713 просмотров

Как определить начало таблицы в itextSharp?
Я пытаюсь преобразовать pdf в файл csv. pdf файл имеет данные в табличном формате с первой строкой в ​​качестве заголовка. Я достиг уровня, на котором я могу извлечь текст из ячейки, сравнить базовую линию текста в таблице и определить новую строку,...
5450 просмотров
schedule 07.12.2023

Получить крайнее правое, левое, верхнее, нижнее положение изображения - Itext
Я устанавливаю поле для pdf и проверяю, превышает ли содержимое страницы поле. Я легко могу это сделать, если содержимое страницы представляет собой просто текст. Вот что я делаю: Я использую TextMarginFinder . Я устанавливаю значения...
1554 просмотров
schedule 28.03.2024

разбор pdf-файла с кликабельной страницей содержимого
Допустим, у нас есть pdf-файл с кликабельной страницей содержимого. (Я говорю о главах и подразделах). Как этот определенный файл может быть проанализирован на С# и как приложение может понять, есть ли в читаемом PDF-файле главы/содержимое или нет?...
4628 просмотров
schedule 17.05.2024