Я получил это обрезанное изображение из своего pdf-файла:
После предварительной обработки я передаю его в Tesseract OCR.
text = pytesseract.image_to_string(img, lang='eng')
Но ocr'ed text
пуст.
Редактировать:
Я загружаю полное изображение и обрезаю его до этого. Как только он обрезан, я применяю к нему фильтр для повышения резкости, а затем удаляю соль и перец.
pages = convert_from_path("../data/2.pdf", fmt='JPEG',
poppler_path=r"D:\poppler-0.68.0\bin")
reader = easyocr.Reader(['en']) # need to run only once to load model into memory
for page in pages:
page.save('image.jpg', 'JPEG')
image = cv2.imread('image.jpg')
img = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
img = img[cord[2]:cord[3], cord[0]:cord[1]]
kernel = np.array([[-1,-1,-1], [-1,9,-1], [-1,-1,-1]])
img = cv2.filter2D(img, -1, kernel)
img = cv2.medianBlur(img, 3)
text = pytesseract.image_to_string(img)
Это изображение является частью PDF. PDF конвертируется в jpg, а затем загружается снова, а затем этот раздел обрезается с указанием координат BB.
Изменить: используя приведенный ниже пример, это результат предварительной обработки:
Но распечатанный text
вывод по-прежнему выключен:
AQ@O FCI