Вопросы по теме 'record-linkage'

Как сгруппировать похожие строки вместе в базе данных в R
У меня есть только одна колонка под названием «заголовок». > dat # A tibble: 13 x 1 title <chr> 1 lymphoedema clinic...
182 просмотров
schedule 01.10.2021

Использование compare.linkage из R для сравнения двух фреймов данных и создания пар для входных данных
Я пытаюсь ввести некоторые данные в свой набор данных на основе другого. Однако для этого мне нужно сравнить несколько переменных, и каждая из них имеет вес. Кроме того, мне нужно сформировать пары, используя переменные KEY, которые являются...
222 просмотров
schedule 19.07.2022

Алгоритм дедупликации данных для большого количества контактов
Я разрабатываю приложение, которое должно иметь возможность находить и объединять дубликаты в сотнях тысяч контактных данных, хранящихся в базе данных сервера sql. Мне нужно сравнить все столбцы в таблице, каждый столбец имеет значение веса....
7484 просмотров

Идентификация связывания записей Python
Проблема аналогична идентификатору R Recordlinkage , но в python. Алгоритм генерирует новую идентичность, которая не отражает правильную идентичность записей, которые были сопоставлены. Предполагая дублирование данных с одним кадром данных. PS:...
144 просмотров
schedule 02.06.2023

Дедупликация таблицы на основе значений в 2 столбцах + нечеткое сопоставление
У меня есть файл CSV, экспортированный из Zotero , с метаданными записей моей библиотеки. Я знаю, что он содержит довольно много дубликатов, но избавиться от них не так просто: Не все элементы с похожими названиями на самом деле являются...
700 просмотров
schedule 12.03.2023

Нечеткое сопоставление строк двух наборов данных без использования цикла for
У меня есть два набора данных A и B по 8 столбцов в каждом. Набор данных A содержит 942 строки, а набор данных B — 5079 строк. Мне нужно сравнить набор данных A и набор данных B и выполнить нечеткое сопоставление. Если в наборе данных B есть...
341 просмотров
schedule 01.06.2024