Проблема аналогична идентификатору R Recordlinkage, но в python. Алгоритм генерирует новую идентичность, которая не отражает правильную идентичность записей, которые были сопоставлены. Предполагая дублирование данных с одним кадром данных.
PS: кажется, все в порядке с дублированием данных пример