Стиль шрифта разметки (курсив) в tesseract OCR

Установите tesseract-ocr v3.02.02 в Windows 7 и используйте его через командную строку:

1) Вывод текста png в текстовый файл: tesseract image.png txtfile 2) Вывод текста png в файл html: tesseract image.png htmlfile hocr

Мне нужно, чтобы он мог размечать любой курсивный текст в выходном тексте или html файле. Как мне это сделать (желательно в командной строке - никогда не использовал в режиме API)?


person user2417713    schedule 22.09.2014    source источник


Ответы (1)


Вывод hocr Tesseract включает только координаты слова и достоверные значения, но не информацию о шрифте. Таким образом, вам нужно будет изменить исходный код для вывода того, что вы хотите для режима командной строки, или использовать его API.

person nguyenq    schedule 26.09.2014
comment
Спасибо за это. Я был бы признателен, если бы вы могли выделить, какой файл мне нужно отредактировать, с помощью примера кода для вывода текстовой разметки курсивом. В качестве альтернативы, предложите, как я могу добиться этого с помощью его API, не знакомого с API Tesseract. Я знаком с PHP / JavaScript, но мало разбирался в C / C ++. - person user2417713; 26.09.2014
comment
Для получения этой информации вам необходимо посетить сайт Tesseract и форум. Прочтите примеры API для использования класса ResultIterator и проверьте страницу "Проблемы". проблемы, связанные с hocr, чтобы найти классы / файлы, отвечающие за вывод hocr. - person nguyenq; 27.09.2014