Нечеткое совпадение строк

После запуска оптического распознавания символов на некоторых изображениях я получаю приблизительный текст. Часто признание невелико. Например, фактический текст «ДАТА» выглядит как «DHTE» или «0HTE». В основном мне нужно идентифицировать и извлекать данные в каждой строке, поэтому мне не нужно идеальное распознавание, достаточно только определить строку даты. Я попытался рассчитать расстояние редактирования Левенштейна, но, к сожалению, это имеет тенденцию давать аналогичные значения для ДАТЫ и ВРЕМЕНИ. На данный момент я пытаюсь выяснить, могу ли я сопоставить шаблоны данных, используя вместо этого регулярные выражения.

Есть ли метод/алгоритм для улучшения процесса сопоставления? К счастью, мой набор слов не очень велик.

(я использую tesseract для распознавания и groovy/java для алгоритма)

aldrin 10.07.2011 источник

Ответы (1)

arrow_upward
1
arrow_downward

Здесь есть несколько довольно крутых алгоритмов http://secondstring.sourceforge.net/.

Это базовый вариант в StringUtils расстояние Левенштейна

Pablo 10.07.2011

Нечеткое совпадение строк

Ответы (1)

Вопросы по теме