Не могу получить правильные настройки тессеракта

Я пытаюсь использовать тессеракт на этом изображении:

Когда я использую конфигурацию по умолчанию:

tesseract image.jpg stdout

Возвращает \KD FWOW.
Как видите, единственная ошибка - первая буква L распознается как обратная косая черта.

Итак, я создал файл конфигурации в /usr/share/tesseract-ocr/tessdata/configs с настройкой:

tessedit_char_whitelist ABCDEFGHIJKLMNOPQRSTUWXYZ

Цель состоит в том, чтобы распознавать только буквы, а не специальные символы. Однако, когда я запускаю tesseract с этой конфигурацией:

tesseract image.jpg stdout letters

Результат - XKD FVOIV, и теперь в нем отсутствует более одного символа, в основном буква "W".

Для меня это не имеет смысла, я не могу понять, почему он перестал распознавать букву W, когда она находится в белом списке. Наверняка мне что-то не хватает в конфиге.

Как я могу это исправить?

image-processing python-tesseract tesseract

Tales Pádua 22.06.2016 источник

comment

почему бы сначала не сделать изображение прямоугольным ... это называется предварительной обработкой ... без надлежащей подготовки данных любая операция CV бесполезна ... - Spektre 23.06.2016

comment

Изображение было подготовлено к этому моменту, но я не использую OpenCV, я использую imagemagick - Tales Pádua 23.06.2016

comment

Это не имеет значения, я тоже не использую OpenCV ... найдите перекос слева и справа ... и снова преобразуйте его в прямоугольную ограничивающую рамку. аналогично этому stackoverflow.com/a/30273878/2521214 - Spektre 23.06.2016

Не могу получить правильные настройки тессеракта

Вопросы по теме