Я хочу выполнить сегментацию текста в печатном документе. Я уже сегментировал документ на сегментацию символов, но мне не удалось, когда я встретил какой-то трогательный персонаж. Я хочу использовать Tesseract OCR только для сегментации слова. Я знаю, что Tesseract может выполнить эту задачу, но я не знаю, как получить к ней доступ, не копаясь во внутреннем коде tesseract. Кто-нибудь может дать мне совет? Если это возможно, мне нужно это в Python.
Использование Tesseract OCR только для сегментации символов
Ответы (1)
Если вы можете вызвать метод API TessBaseAPIGetComponentImages
, вы можете получить сегментацию на различных pageIteratorLevel
уровнях (символ/символ, слово, линия и т. д.) без фактического распознавания текста на изображении.
person
nguyenq
schedule
13.04.2017
Можете ли вы описать, как это можно сделать с помощью python, например, pytesseract, texttract, pyocr?
- person aspiring1; 09.09.2019