Я пытаюсь выяснить, какие записи в моем хранилище данных являются почти дубликатами, используя приблизительное сопоставление строк.
Есть ли какая-либо реализация следующего подхода в python, или мне нужно попытаться свернуть свой собственный?
Спасибо :)
...
Подход грубой силы состоял бы в том, чтобы вычислить расстояние редактирования до P для всех подстрок T, а затем выбрать подстроку с минимальным расстоянием. Однако этот алгоритм будет иметь время работы O(n3 m)
Лучшее решение[3][4], использующее динамическое программирование, использует альтернативную формулировку задачи: для каждой позиции j в тексте T и каждой позиции i в шаблоне P вычислить минимальное расстояние редактирования между i первыми символами шаблон Pi и любая подстрока Tj',j строки T, которая заканчивается в позиции j.
Каков наиболее эффективный способ применить это ко многим строкам?