Как извлечь текст из изображения PDF

Я хотел извлечь данные из PDF-файла, в котором есть изображение, а изображение представляет собой форму, в которой буква будет находиться внутри маленьких прямоугольников, например, name : t e s t, здесь каждое слово будет внутри квадратного прямоугольника.

Я пробовал tesseract OCR, но не смог получить желаемого результата.

Я пробовал коммерческий ABBYY, но я хотел использовать бесплатный API на основе Java.

ниже приведен пример введите здесь описание изображения


person raghavendra prasad gudipalli    schedule 12.05.2018    source источник


Ответы (3)


Nicomsoft OCR SDK, который является бесплатным SDK, извлек текст из моего PDF-файла, и результаты удовлетворительны.

он поддерживает действительно большие технологии, теперь я пытаюсь интегрировать его в свое приложение.

Ссылка https://www.nicomsoft.com/

person raghavendra prasad gudipalli    schedule 07.06.2018

Что касается бесплатности OCR, Tesseract настолько хорош, насколько это возможно.

В качестве альтернативы вы можете посмотреть Предложение Windows 10 UWP OCR.

person fistynuts    schedule 12.05.2018

Я не уверен насчет бесплатных, но вы определенно можете попробовать TotalPDFConverterOCR.

Он имеет широкий спектр вещей, таких как преобразование в документ, изображения и т. Д.

person nashcharles    schedule 14.05.2018
comment
он не работал с упомянутым программным обеспечением, это внутреннее использование Tesseract - person raghavendra prasad gudipalli; 16.05.2018