Использование Tesseract OCR только для сегментации символов

Я хочу выполнить сегментацию текста в печатном документе. Я уже сегментировал документ на сегментацию символов, но мне не удалось, когда я встретил какой-то трогательный персонаж. Я хочу использовать Tesseract OCR только для сегментации слова. Я знаю, что Tesseract может выполнить эту задачу, но я не знаю, как получить к ней доступ, не копаясь во внутреннем коде tesseract. Кто-нибудь может дать мне совет? Если это возможно, мне нужно это в Python.


person Christopher Wiraatmaja    schedule 13.04.2017    source источник


Ответы (1)


Если вы можете вызвать метод API TessBaseAPIGetComponentImages, вы можете получить сегментацию на различных pageIteratorLevel уровнях (символ/символ, слово, линия и т. д.) без фактического распознавания текста на изображении.

person nguyenq    schedule 13.04.2017
comment
Можете ли вы описать, как это можно сделать с помощью python, например, pytesseract, texttract, pyocr? - person aspiring1; 09.09.2019