ускорение тессеаркта

Я использовал tesseract (версия 3) в Linux для извлечения текста из отсканированных файлов PDF. Проблема в том, что весь процесс идет медленно, очень медленно. Например, извлечение этого (http://www.a-pdf.com/scan-paper/a-pdf-scan-paper-doc.pdf) 20-страничного документа занимает 514 секунд (8+ мин)

для конвертации pdf я использовал приложение Image Magick convert. ниже команды set, которую я использую.

convert -de density 288 src.pdf -colorspace Gray -depth 8 -alpha off tmp.tif

tesseract tmp.tif out.txt

Обратите внимание, что требуется 288 dpi, поскольку в противном случае tesseract полностью не сможет извлечь текст из отсканированного файла, который я тестировал.

Кто-нибудь знает, как я могу ускорить процесс, не влияя на качество результата?


person John    schedule 02.05.2011    source источник


Ответы (1)


Попробуйте VietOCR, чтобы узнать, может ли он дать более быстрые результаты, чем вы хотите. Он может принимать PDF, если установлен Ghostscript.

person nguyenq    schedule 20.05.2011