Как извлечь текст из изображения PDF

Я хотел извлечь данные из PDF-файла, в котором есть изображение, а изображение представляет собой форму, в которой буква будет находиться внутри маленьких прямоугольников, например, name : t e s t, здесь каждое слово будет внутри квадратного прямоугольника.

Я пробовал tesseract OCR, но не смог получить желаемого результата.

Я пробовал коммерческий ABBYY, но я хотел использовать бесплатный API на основе Java.

ниже приведен пример

raghavendra prasad gudipalli 12.05.2018 источник

Ответы (3)

arrow_upward
2
arrow_downward

Nicomsoft OCR SDK, который является бесплатным SDK, извлек текст из моего PDF-файла, и результаты удовлетворительны.

он поддерживает действительно большие технологии, теперь я пытаюсь интегрировать его в свое приложение.

Ссылка https://www.nicomsoft.com/

raghavendra prasad gudipalli 07.06.2018

arrow_upward
0
arrow_downward

Что касается бесплатности OCR, Tesseract настолько хорош, насколько это возможно.

В качестве альтернативы вы можете посмотреть Предложение Windows 10 UWP OCR.

fistynuts 12.05.2018

arrow_upward
0
arrow_downward

Я не уверен насчет бесплатных, но вы определенно можете попробовать TotalPDFConverterOCR.

Он имеет широкий спектр вещей, таких как преобразование в документ, изображения и т. Д.

nashcharles 14.05.2018

comment

он не работал с упомянутым программным обеспечением, это внутреннее использование Tesseract - raghavendra prasad gudipalli; 16.05.2018

Как извлечь текст из изображения PDF

Ответы (3)

Вопросы по теме