Я пытаюсь извлечь текст из файла изображения с помощью Tesseract OCR в Python, но я столкнулся с ошибкой, и я могу понять, как с ней справиться. вся моя среда хороша, так как я тестировал образец изображения с помощью ocr в python!
вот код
from PIL import Image
import pytesseract
strs = pytesseract.image_to_string(Image.open('binarized_image.png'))
print (strs)
Ниже приводится ошибка, которую я получаю из консоли eclipse
strs = pytesseract.image_to_string(Image.open('binarized_body.png'))
File "C:\Python35x64\lib\site-packages\pytesseract\pytesseract.py", line 167, in image_to_string
return f.read().strip()
File "C:\Python35x64\lib\encodings\cp1252.py", line 23, in decode
return codecs.charmap_decode(input,self.errors,decoding_table)[0]
UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 20: character maps to <undefined>
Я использую python 3.5 x64 в Windows10
sys.setdefaultencoding
, чтобы узнать, поможет ли это диагностировать проблему? (Я бы, вероятно, избегал использовать этот хак в производственном коде, если вы можете с этим помочь.) - person Benjamin Hodgson♦   schedule 15.12.2015