Нечеткое совпадение строк

После запуска оптического распознавания символов на некоторых изображениях я получаю приблизительный текст. Часто признание невелико. Например, фактический текст «ДАТА» выглядит как «DHTE» или «0HTE». В основном мне нужно идентифицировать и извлекать данные в каждой строке, поэтому мне не нужно идеальное распознавание, достаточно только определить строку даты. Я попытался рассчитать расстояние редактирования Левенштейна, но, к сожалению, это имеет тенденцию давать аналогичные значения для ДАТЫ и ВРЕМЕНИ. На данный момент я пытаюсь выяснить, могу ли я сопоставить шаблоны данных, используя вместо этого регулярные выражения.

Есть ли метод/алгоритм для улучшения процесса сопоставления? К счастью, мой набор слов не очень велик.

(я использую tesseract для распознавания и groovy/java для алгоритма)


person aldrin    schedule 10.07.2011    source источник


Ответы (1)


Здесь есть несколько довольно крутых алгоритмов http://secondstring.sourceforge.net/.

Это базовый вариант в StringUtils расстояние Левенштейна

person Pablo    schedule 10.07.2011