Недопустимое исключение доступа к памяти при извлечении текста с использованием tes4j

Я извлекаю текст из изображения pdf, используя Tes4j. Здесь задействованы два шага: 1) конвертировать pdf в изображение:

PdfUtilities.convertPdf2Png(inputfilepath);

Это работает без проблем. 2) извлечь текст из изображения:

try {
if(imgName.endsWith(".png")){
            ITesseract instance = new Tesseract(); 
            instance.setDatapath("tessdataPath");
            extractedData= instance.doOCR(Image);
            }
            catch(Exception e2){
                System.out.println("exception:"+e2.getMessage());
            }
        }
    }

При этом я получаю исключение ниже для определенного файла изображения.

Exception in thread "main" java.lang.Error: Invalid memory access
    at com.sun.jna.Native.invokePointer(Native Method)
    at com.sun.jna.Function.invokePointer(Function.java:470)
    at com.sun.jna.Function.invoke(Function.java:404)
    at com.sun.jna.Function.invoke(Function.java:315)
    at com.sun.jna.Library$Handler.invoke(Library.java:212)
    at com.sun.proxy.$Proxy1.TessBaseAPIGetUTF8Text(Unknown Source)
    at net.sourceforge.tess4j.Tesseract.getOCRText(Unknown Source)
    at net.sourceforge.tess4j.Tesseract.doOCR(Unknown Source)
    at net.sourceforge.tess4j.Tesseract.doOCR(Unknown Source)
    at net.sourceforge.tess4j.Tesseract.doOCR(Unknown Source)
    at com.tcs.textExtraction.ImgToText.imagetoText(ImgToText.java:109)
    at com.tcs.textExtraction.ImgToText.main(ImgToText.java:31)
split_pt >0 && split_pt < word->chopped_word->NumBlobs():Error:Assert failed:in file ..\..\ccmain\tfacepp.cpp, line 186

I have included following jars: jna.jar,log4j-1.2.17.jar,pdfbox-1.8.13.jar,tess4j.jar,commons-logging-1.1.3.jar,fontbox-1.8.13.jar,ghost4j-0.5.1.jar,itext-2.1.7.jar,jai_imageio.jar my tessdata has following files: pdf.ttf,pdf.ttx,eng.traineddata,osd.traineddata


person Shankramma Patil    schedule 03.03.2017    source источник
comment
Не имеет отношения к вашей проблеме, но в любом случае важно: ваша версия PDFBox устарела. 1.8.13 актуальна в ветке 1.8. Не 1.8.1 и не 1.8.4. И использование двух разных версий журнала общих ресурсов также странно.   -  person Tilman Hausherr    schedule 03.03.2017
comment
Я получаю 4 попадания в stackoverflow, вводя в google: tess4j Неверный доступ к памяти. Тебе никто не помог?   -  person Tilman Hausherr    schedule 05.03.2017
comment
Спасибо за внимание. Теперь у меня есть PdfBox 1.8.13 и удалена одна версия commons-logging(1.1.2). Также я просмотрел другие ссылки для этого вопроса: 1) stackoverflow.com/ вопросов/19894890/ 2)stackoverflow.com/questions/35295582/ 3)stackoverflow.com/questions/32421492/ Но никто не решил проблему.   -  person Shankramma Patil    schedule 06.03.2017
comment
Я изменил вопрос, чтобы отразить последний код, ошибку и использованные банки.   -  person Shankramma Patil    schedule 06.03.2017
comment
Возможный дубликат Tess4J: неверный доступ к памяти   -  person Raedwald    schedule 06.03.2017
comment
Я проверил это решение, однако оно не решило мою проблему.   -  person Shankramma Patil    schedule 06.03.2017
comment
Убедитесь, что вы setDatapath в родительский каталог tessdata каталога.   -  person nguyenq    schedule 08.03.2017
comment
Пробовали это, но не повезло ..   -  person Shankramma Patil    schedule 08.03.2017
comment
У меня была такая же проблема, я решил ее, преобразовав входное изображение в другой формат RGB (не помню, в какой).   -  person Radim Burget    schedule 08.06.2017