Я использую tess4j (net.sourceforge.tess4j:tess4j:4.4.0) и пробую OCR в pdf-файлах. Итак, как я понял, мне нужно сначала преобразовать pdf в tiff или png (любой из предложенных?), что я сделал следующим образом:
tesseract.doOCR(PdfUtilities.convertPdf2Tiff(inputPdfFile));
и получите следующее предупреждение:
Warning: Invalid resolution 0 dpi. Using 70 instead.
Вопрос
- Влияет ли это на результаты моего сканирования? (если нет, ок - я могу отключить предупреждение)
- Есть ли способ установить DPI вручную или
convertPdf
должен сделать это за меня?