Не могу получить правильные настройки тессеракта

Я пытаюсь использовать тессеракт на этом изображении:

введите описание изображения здесь

Когда я использую конфигурацию по умолчанию:

tesseract image.jpg stdout

Возвращает \KD FWOW.
Как видите, единственная ошибка - первая буква L распознается как обратная косая черта.

Итак, я создал файл конфигурации в /usr/share/tesseract-ocr/tessdata/configs с настройкой:

tessedit_char_whitelist ABCDEFGHIJKLMNOPQRSTUWXYZ

Цель состоит в том, чтобы распознавать только буквы, а не специальные символы. Однако, когда я запускаю tesseract с этой конфигурацией:

tesseract image.jpg stdout letters

Результат - XKD FVOIV, и теперь в нем отсутствует более одного символа, в основном буква "W".

Для меня это не имеет смысла, я не могу понять, почему он перестал распознавать букву W, когда она находится в белом списке. Наверняка мне что-то не хватает в конфиге.

Как я могу это исправить?


person Tales Pádua    schedule 22.06.2016    source источник
comment
почему бы сначала не сделать изображение прямоугольным ... это называется предварительной обработкой ... без надлежащей подготовки данных любая операция CV бесполезна ...   -  person Spektre    schedule 23.06.2016
comment
Изображение было подготовлено к этому моменту, но я не использую OpenCV, я использую imagemagick   -  person Tales Pádua    schedule 23.06.2016
comment
Это не имеет значения, я тоже не использую OpenCV ... найдите перекос слева и справа ... и снова преобразуйте его в прямоугольную ограничивающую рамку. аналогично этому stackoverflow.com/a/30273878/2521214   -  person Spektre    schedule 23.06.2016