Я использовал tesseract (версия 3) в Linux для извлечения текста из отсканированных файлов PDF. Проблема в том, что весь процесс идет медленно, очень медленно. Например, извлечение этого (http://www.a-pdf.com/scan-paper/a-pdf-scan-paper-doc.pdf) 20-страничного документа занимает 514 секунд (8+ мин)
для конвертации pdf я использовал приложение Image Magick convert. ниже команды set, которую я использую.
convert -de density 288 src.pdf -colorspace Gray -depth 8 -alpha off tmp.tif
tesseract tmp.tif out.txt
Обратите внимание, что требуется 288 dpi, поскольку в противном случае tesseract полностью не сможет извлечь текст из отсканированного файла, который я тестировал.
Кто-нибудь знает, как я могу ускорить процесс, не влияя на качество результата?