Я пытаюсь использовать тессеракт на этом изображении:
Когда я использую конфигурацию по умолчанию:
tesseract image.jpg stdout
Возвращает \KD FWOW
.
Как видите, единственная ошибка - первая буква L
распознается как обратная косая черта.
Итак, я создал файл конфигурации в /usr/share/tesseract-ocr/tessdata/configs
с настройкой:
tessedit_char_whitelist ABCDEFGHIJKLMNOPQRSTUWXYZ
Цель состоит в том, чтобы распознавать только буквы, а не специальные символы. Однако, когда я запускаю tesseract с этой конфигурацией:
tesseract image.jpg stdout letters
Результат - XKD FVOIV
, и теперь в нем отсутствует более одного символа, в основном буква "W".
Для меня это не имеет смысла, я не могу понять, почему он перестал распознавать букву W, когда она находится в белом списке. Наверняка мне что-то не хватает в конфиге.
Как я могу это исправить?