Идентификация связывания записей Python

Проблема аналогична идентификатору R Recordlinkage, но в python. Алгоритм генерирует новую идентичность, которая не отражает правильную идентичность записей, которые были сопоставлены. Предполагая дублирование данных с одним кадром данных.

PS: кажется, все в порядке с дублированием данных пример


person Taiwo O. Adetiloye    schedule 20.09.2018    source источник


Ответы (1)


Столбец индекса, созданный с использованием панд, необходимо удалить и заменить предпочтительным столбцом в фрейме данных для использования в качестве столбца идентификации.

Логика

replace index column with identify column in dataframe
person Taiwo O. Adetiloye    schedule 20.09.2018