Tessaract (tess4j) - Выполнение OCR над массивом байтов

Я работаю над приложением, которое читает вложения из электронной почты (в целом PDF) и выполняет операцию OCR в файлах PDF. Проблема в том, что мне нужно сначала сохранить файлы на HDD, и я думаю, что это не обязательно. Можно ли выполнить операцию OCR над массивом байтов без предварительного сохранения файлов на диск?

заранее спасибо, Игорь

arrays tesseract tess4j

Rodrigo 10.01.2018 источник

comment

tess4j.sourceforge.net/docs/docs-2.0 /net/sourceforge/tess4j/ вам помочь? Существует множество прототипов функций doOCR, просто выберите тот, который подходит вам лучше всего. - Dmitrii Z. 10.01.2018

comment

Я видел эту страницу раньше. К сожалению нет! Спасибо за вашу помощь! - Rodrigo 10.01.2018

comment

Похоже, что Tesseract использует PdfUtilities для преобразования PDF в IMAGE. Поэтому вам нужно будет преобразовать его самостоятельно. Вы можете попробовать этот, который преобразует байтовый массив pdf в изображение, которое вы загружаете в tess4j - Dmitrii Z. 10.01.2018

comment

В порядке. Я посмотрю и увижу. Если у меня будут хорошие результаты, я опубликую здесь в будущем. Благодарю вас! - Rodrigo 12.01.2018

comment

@Rodrigo, вы можете попробовать сохранить его во временном файле, хотя он все еще находится на диске, это всегда будет только один файл? - Tinus Jackson 24.01.2018

Tessaract (tess4j) - Выполнение OCR над массивом байтов

Вопросы по теме