Tess4j - Pdf в Tiff в tesseract - Предупреждение: Недопустимое разрешение 0 dpi. Вместо этого используйте 70.

Я использую tess4j (net.sourceforge.tess4j:tess4j:4.4.0) и пробую OCR в pdf-файлах. Итак, как я понял, мне нужно сначала преобразовать pdf в tiff или png (любой из предложенных?), что я сделал следующим образом:

tesseract.doOCR(PdfUtilities.convertPdf2Tiff(inputPdfFile)); 

и получите следующее предупреждение:

Warning: Invalid resolution 0 dpi. Using 70 instead.

Вопрос

  • Влияет ли это на результаты моего сканирования? (если нет, ок - я могу отключить предупреждение)
  • Есть ли способ установить DPI вручную или convertPdf должен сделать это за меня?

person timguy    schedule 08.10.2019    source источник


Ответы (2)


Если в метаданных изображения нет информации о разрешении, Tesseract пытается оценить разрешение самостоятельно, чтобы в результатах можно было вычислить информацию о размере шрифта.

Вы можете попробовать следующие API для установки разрешения входного изображения:

instance.SetTessVariable("user_defined_dpi", "300");

or

TessBaseAPISetSourceResolution(TessBaseAPI handle, int ppi);

Вы можете подавить вывод консоли:

instance.setTessVariable("debug_file", "/dev/null");

person nguyenq    schedule 09.10.2019

Разрешение по умолчанию не установлено.

Чтобы дополнить ответ nguyenq `s:

instance.setTessVariable("user_defined_dpi", "300");
person Vlad-Florin Ciocan    schedule 18.11.2020