Tess4j - Pdf в Tiff в tesseract - Предупреждение: Недопустимое разрешение 0 dpi. Вместо этого используйте 70.

Я использую tess4j (net.sourceforge.tess4j:tess4j:4.4.0) и пробую OCR в pdf-файлах. Итак, как я понял, мне нужно сначала преобразовать pdf в tiff или png (любой из предложенных?), что я сделал следующим образом:

tesseract.doOCR(PdfUtilities.convertPdf2Tiff(inputPdfFile));

и получите следующее предупреждение:

Warning: Invalid resolution 0 dpi. Using 70 instead.

Вопрос

Влияет ли это на результаты моего сканирования? (если нет, ок - я могу отключить предупреждение)
Есть ли способ установить DPI вручную или convertPdf должен сделать это за меня?

timguy 08.10.2019 источник

Ответы (2)

arrow_upward
5
arrow_downward

Если в метаданных изображения нет информации о разрешении, Tesseract пытается оценить разрешение самостоятельно, чтобы в результатах можно было вычислить информацию о размере шрифта.

Вы можете попробовать следующие API для установки разрешения входного изображения:

instance.SetTessVariable("user_defined_dpi", "300");

TessBaseAPISetSourceResolution(TessBaseAPI handle, int ppi);

Вы можете подавить вывод консоли:

instance.setTessVariable("debug_file", "/dev/null");

nguyenq 09.10.2019

arrow_upward
0
arrow_downward

Разрешение по умолчанию не установлено.

Чтобы дополнить ответ nguyenq `s:

instance.setTessVariable("user_defined_dpi", "300");

Vlad-Florin Ciocan 18.11.2020

Tess4j - Pdf в Tiff в tesseract - Предупреждение: Недопустимое разрешение 0 dpi. Вместо этого используйте 70.

Ответы (2)

Вопросы по теме