Создание активности камеры, оптимизированной / подходящей для OCR

Я пытаюсь создать действие камеры для фотосъемки для распознавания текста. Вот чего я хочу добиться:

Поле с изменяемым размером в середине предварительного просмотра камеры, чтобы указать, какая конкретная область будет создана в растровое изображение и обработана механизмом OCR.
Непрерывный автофокус (готово)

Кстати, я использую тессеракт.

Если бы кто-нибудь захотел указать мне ссылку / примеры / учебные пособия, это было бы здорово.

Kevin D. 27.01.2012 источник

comment

Можете ли вы связаться со мной или связать меня с некоторыми источниками, чтобы сделать поле изменяемого размера в середине предварительного просмотра камеры, чтобы указать, какая конкретная область будет создана в растровое изображение и обработана механизмом OCR. - Firas Al Mannaa 28.12.2012

Ответы (3)

arrow_upward
3
arrow_downward

Здесь есть прямоугольник видоискателя:

https://github.com/rmtheis/android-ocr/blob/master/android/src/edu/sfsu/cs/orange/ocr/CaptureActivity.java

rmtheis 28.01.2012

comment

спасибо, я раздвоил tess-two (который включает eyes-two). Хотя я ищу менее абстрактный пример. На данный момент прохожу все родственные классы. - Kevin D.; 28.01.2012

arrow_upward
1
arrow_downward

Я делал нечто подобное. Прямо сейчас я просто отправляю всю фотографию в веб-сервис и обрабатываю ее с помощью OCRfeeder, который выполнит сегментацию изображения и отправит каждую часть с текстом в tesseract. Таким образом я стал намного точнее. Кроме того, вы можете сначала выполнить некоторую предварительную обработку, чтобы очистить изображение.

nont 29.01.2012

arrow_upward
0
arrow_downward

Есть два общих подхода.

Вы можете изменить размер изображения перед его отправкой в систему распознавания текста. Имейте в виду, что используемый вами движок Tesseract имеет некоторую особенность - ему требуется некоторое пространство между символами и границами изображения, иногда больше, чем ожидалось.

Второй подход заключается в использовании распознавания на уровне поля, когда вы указываете координаты текстового блока и отправляете полное изображение в движок OCR. Взгляните на http://www.ocrsdk.com, это облачный SDK OCR с веб-API, недавно запущенный ABBYY, это бета-версия, так что пока она бесплатна. В нем есть методы распознавания на уровне поля и Примеры кода Android. Я работаю в @ ABBYY и при необходимости могу предоставить дополнительную информацию о наших продуктах.

Nikolay 30.01.2012

Создание активности камеры, оптимизированной / подходящей для OCR

Ответы (3)

Вопросы по теме