ускорение тессеаркта

Я использовал tesseract (версия 3) в Linux для извлечения текста из отсканированных файлов PDF. Проблема в том, что весь процесс идет медленно, очень медленно. Например, извлечение этого (http://www.a-pdf.com/scan-paper/a-pdf-scan-paper-doc.pdf) 20-страничного документа занимает 514 секунд (8+ мин)

для конвертации pdf я использовал приложение Image Magick convert. ниже команды set, которую я использую.

convert -de density 288 src.pdf -colorspace Gray -depth 8 -alpha off tmp.tif

tesseract tmp.tif out.txt

Обратите внимание, что требуется 288 dpi, поскольку в противном случае tesseract полностью не сможет извлечь текст из отсканированного файла, который я тестировал.

Кто-нибудь знает, как я могу ускорить процесс, не влияя на качество результата?

John 02.05.2011 источник

Ответы (1)

arrow_upward
0
arrow_downward

Попробуйте VietOCR, чтобы узнать, может ли он дать более быстрые результаты, чем вы хотите. Он может принимать PDF, если установлен Ghostscript.

nguyenq 20.05.2011

ускорение тессеаркта

Ответы (1)

Вопросы по теме