Создание активности камеры, оптимизированной / подходящей для OCR

Я пытаюсь создать действие камеры для фотосъемки для распознавания текста. Вот чего я хочу добиться:

  1. Поле с изменяемым размером в середине предварительного просмотра камеры, чтобы указать, какая конкретная область будет создана в растровое изображение и обработана механизмом OCR.
  2. Непрерывный автофокус (готово)

Кстати, я использую тессеракт.

Если бы кто-нибудь захотел указать мне ссылку / примеры / учебные пособия, это было бы здорово.


person Kevin D.    schedule 27.01.2012    source источник
comment
Можете ли вы связаться со мной или связать меня с некоторыми источниками, чтобы сделать поле изменяемого размера в середине предварительного просмотра камеры, чтобы указать, какая конкретная область будет создана в растровое изображение и обработана механизмом OCR.   -  person Firas Al Mannaa    schedule 28.12.2012


Ответы (3)


Здесь есть прямоугольник видоискателя:

https://github.com/rmtheis/android-ocr/blob/master/android/src/edu/sfsu/cs/orange/ocr/CaptureActivity.java

person rmtheis    schedule 28.01.2012
comment
спасибо, я раздвоил tess-two (который включает eyes-two). Хотя я ищу менее абстрактный пример. На данный момент прохожу все родственные классы. - person Kevin D.; 28.01.2012

Я делал нечто подобное. Прямо сейчас я просто отправляю всю фотографию в веб-сервис и обрабатываю ее с помощью OCRfeeder, который выполнит сегментацию изображения и отправит каждую часть с текстом в tesseract. Таким образом я стал намного точнее. Кроме того, вы можете сначала выполнить некоторую предварительную обработку, чтобы очистить изображение.

person nont    schedule 29.01.2012

Есть два общих подхода.

Вы можете изменить размер изображения перед его отправкой в ​​систему распознавания текста. Имейте в виду, что используемый вами движок Tesseract имеет некоторую особенность - ему требуется некоторое пространство между символами и границами изображения, иногда больше, чем ожидалось.

Второй подход заключается в использовании распознавания на уровне поля, когда вы указываете координаты текстового блока и отправляете полное изображение в движок OCR. Взгляните на http://www.ocrsdk.com, это облачный SDK OCR с веб-API, недавно запущенный ABBYY, это бета-версия, так что пока она бесплатна. В нем есть методы распознавания на уровне поля и Примеры кода Android. Я работаю в @ ABBYY и при необходимости могу предоставить дополнительную информацию о наших продуктах.

person Nikolay    schedule 30.01.2012