Использование Tesseract OCR только для сегментации символов

Я хочу выполнить сегментацию текста в печатном документе. Я уже сегментировал документ на сегментацию символов, но мне не удалось, когда я встретил какой-то трогательный персонаж. Я хочу использовать Tesseract OCR только для сегментации слова. Я знаю, что Tesseract может выполнить эту задачу, но я не знаю, как получить к ней доступ, не копаясь во внутреннем коде tesseract. Кто-нибудь может дать мне совет? Если это возможно, мне нужно это в Python.

python tesseract text-segmentation

Christopher Wiraatmaja 13.04.2017 источник

Ответы (1)

arrow_upward
1
arrow_downward

Если вы можете вызвать метод API TessBaseAPIGetComponentImages, вы можете получить сегментацию на различных pageIteratorLevel уровнях (символ/символ, слово, линия и т. д.) без фактического распознавания текста на изображении.

nguyenq 13.04.2017

comment

Можете ли вы описать, как это можно сделать с помощью python, например, pytesseract, texttract, pyocr? - aspiring1; 09.09.2019

Использование Tesseract OCR только для сегментации символов

Ответы (1)

Вопросы по теме