После запуска оптического распознавания символов на некоторых изображениях я получаю приблизительный текст. Часто признание невелико. Например, фактический текст «ДАТА» выглядит как «DHTE» или «0HTE». В основном мне нужно идентифицировать и извлекать данные в каждой строке, поэтому мне не нужно идеальное распознавание, достаточно только определить строку даты. Я попытался рассчитать расстояние редактирования Левенштейна, но, к сожалению, это имеет тенденцию давать аналогичные значения для ДАТЫ и ВРЕМЕНИ. На данный момент я пытаюсь выяснить, могу ли я сопоставить шаблоны данных, используя вместо этого регулярные выражения.
Есть ли метод/алгоритм для улучшения процесса сопоставления? К счастью, мой набор слов не очень велик.
(я использую tesseract для распознавания и groovy/java для алгоритма)