За последние несколько дней я тщательно изучил это, я прочитал так много вещей, что теперь я запутался еще больше, чем когда-либо. Как найти самую длинную общую подстроку в большом наборе данных? Идея состоит в том, чтобы удалить повторяющийся контент из этого набора данных (разной длины, поэтому алгоритм должен работать непрерывно). Под большим набором данных я подразумеваю примерно 100 МБ текста.
Суффиксное дерево? Суффиксный массив? Рабин-Карп? Какой лучший способ? И есть ли библиотека, которая может мне помочь?
Очень надеюсь на хороший ответ, голова сильно болит. Спасибо! :-)