Мне нужно знать критерии, которые отличают нечеткие алгоритмы друг от друга между этими тремя:
Алгоритм расстояния Левенштейна
Расстояние Левенштейна - это строковая метрика для измерения разницы между двумя последовательностями. Неформально расстояние Левенштейна между двумя словами - это минимальное количество односимвольных изменений (т. Е. Вставок, удалений или замен), необходимых для преобразования одного слова в другое.
Расстояние Дамерау – Левенштейна
Расстояние Дамерау – Левенштейна - это расстояние (строковая метрика) между двумя строками, т. е. конечная последовательность символов, определяемая путем подсчета минимального количества операций, необходимых для преобразования одной строки в другую, где операция определяется как вставка , удаление или замена одного символа или перестановка двух соседних символов.
Алгоритм Bitap с модификациями Ву и Манбера
Алгоритм растрового изображения - это приблизительный алгоритм сопоставления строк. Алгоритм сообщает, содержит ли данный текст подстроку, которая приблизительно равна заданному шаблону, где приблизительное равенство определяется в терминах расстояния Левенштейна - если подстрока и шаблон находятся на заданном расстоянии k друг от друга, то алгоритм рассматривает их равно.
Мой документ представляет собой таблицу с названиями компаний, у некоторых компаний два-три раза из-за орфографической ошибки. Как в этом конкретном случае сгруппировать компании, сопоставив их? Какой алгоритм выбрать и почему? В файле у меня 100к строк и он растет.