Tessaract (tess4j) - Выполнение OCR над массивом байтов

Я работаю над приложением, которое читает вложения из электронной почты (в целом PDF) и выполняет операцию OCR в файлах PDF. Проблема в том, что мне нужно сначала сохранить файлы на HDD, и я думаю, что это не обязательно. Можно ли выполнить операцию OCR над массивом байтов без предварительного сохранения файлов на диск?

заранее спасибо, Игорь


person Rodrigo    schedule 10.01.2018    source источник
comment
tess4j.sourceforge.net/docs/docs-2.0 /net/sourceforge/tess4j/ вам помочь? Существует множество прототипов функций doOCR, просто выберите тот, который подходит вам лучше всего.   -  person Dmitrii Z.    schedule 10.01.2018
comment
Я видел эту страницу раньше. К сожалению нет! Спасибо за вашу помощь!   -  person Rodrigo    schedule 10.01.2018
comment
Похоже, что Tesseract использует PdfUtilities для преобразования PDF в IMAGE. Поэтому вам нужно будет преобразовать его самостоятельно. Вы можете попробовать этот, который преобразует байтовый массив pdf в изображение, которое вы загружаете в tess4j   -  person Dmitrii Z.    schedule 10.01.2018
comment
В порядке. Я посмотрю и увижу. Если у меня будут хорошие результаты, я опубликую здесь в будущем. Благодарю вас!   -  person Rodrigo    schedule 12.01.2018
comment
@Rodrigo, вы можете попробовать сохранить его во временном файле, хотя он все еще находится на диске, это всегда будет только один файл?   -  person Tinus Jackson    schedule 24.01.2018