Публикации по теме 'deduplication'


Дедупликация записей - решение проблемы с помощью машинного обучения?
Реальные данные далеки от совершенства. Когда мы вводим данные в систему, такую ​​как Salesforce CRM, скорее всего, копия этой записи уже существует. Эти дубликаты необходимо удалить, чтобы наши продажи и маркетинг работали эффективно и результативно. Более чем одна запись о клиенте в CRM вредит нашему охвату. Выявление повторяющихся записей с вариациями и сохранение единственной их копии называется дедупликацией . Дедупликация - важный этап очистки данных, при котором одна и та же..

Вопросы по теме 'deduplication'

Вывод дедупликации SimHash в MapReduce
Я реализую алгоритм SimHash [1] для дедупликации набора данных с помощью MapReduce. Например, если у меня есть 3 документа Doc1, Doc2, Doc3, Doc4. Предположим, что Doc1 похож на Doc3 с расстоянием Хэмминга меньше 3. Тогда после выполнения...
409 просмотров
schedule 15.01.2022

Дедупликация с использованием HiveQL
У меня есть таблица кустов с полями «a» (int), «b» (string), «c» (bigint), «d» (bigint) и «e» (string). У меня есть такие данные, как: a b c d e --------------- 1 a 10 18 i 2 b 11 19 j 3 c 12 20 k 4 d 13 21 l 1 e 14 22 m...
1814 просмотров
schedule 27.02.2022

Удаление повторяющихся записей из JOIN в MS Access
Мой коллега попросил меня помочь с запросом в MS Access, который объединяет три таблицы. Я подтвердил, что порядок и внутренний/внешний статус JOIN соответствует моему коллеге. (У них есть три таблицы, A, B и C; им нужны все записи из таблицы B...
1138 просмотров
schedule 01.06.2022

Удаление дубликатов документов из поиска в Elasticsearch
У меня есть индекс с большим количеством бумаги с одинаковым значением для одного и того же поля. У меня есть одна дедупликация на этом поле. Агрегаторы придут ко мне в качестве счетчиков. Мне нужен список документов. Мой индекс: Документ...
26729 просмотров
schedule 19.06.2022

Список дедупликации/объединения словарей Python
Скажем, у меня есть список диктов: list = [{'name':'john','age':'28','location':'hawaii','gender':'male'}, {'name':'john','age':'32','location':'colorado','gender':'male'},...
1260 просмотров
schedule 17.07.2022

Собрать уникальные URL-адреса изображений из HTML
Использование PHP для скручивания веб-страницы (некоторый URL-адрес, введенный пользователем, давайте предположим, что он действителен). Пример: http://www.youtube.com/watch?v=Hovbx6rvBaA . Мне нужно проанализировать HTML и извлечь все...
1444 просмотров
schedule 18.08.2022

Java: отложенная очередь, которая устраняет дублирование
Доброго времени суток всем, У меня есть система (источник), которая должна асинхронно уведомлять другую систему (цель) при изменении определенных объектов. Хитрость заключается в том, что исходная система может изменять один объект много раз за...
2528 просмотров

Как я могу удалить дубликаты (дедупликацию) почтового ящика электронной почты формата mbox?
У меня есть почтовый ящик mbox, содержащий дубликаты сообщений, которые отличаются только заголовком «X-Evolution:». Я хочу удалить дубликаты как можно быстрее и проще. Вроде бы это уже было написано, но я не нашел, хотя просматривал модуль...
2766 просмотров
schedule 05.05.2023

Каков наилучший способ дедупликации имеющейся у меня информации?
Мне нужно найти и удалить повторяющиеся файлы (.pst) и в конечном итоге получить уникальные электронные письма. В настоящее время я использую Powershell для рекурсивного просмотра папок, чтобы найти только файлы .pst, а затем экспортировать...
165 просмотров
schedule 22.04.2023

Sql server 2008 R2 сопоставления / дедупликации данных
Каковы варианты выполнения процесса очистки данных (дедупликации / сопоставления) при работе с MS SQL Server 2008 R2? Или еще лучше, как я могу взвесить баллы в процессе сопоставления по столбцам строки? Ситуация следующая: у меня есть таблица лиц в...
931 просмотров

Удалить дубликаты из таблицы LUA по отметке времени
Я был в стеке несколько дней назад, чтобы помочь вставить записи для предотвращения дубликатов. Однако процесс входа в них медленный, и они проскальзывают. У меня есть пользовательская база около 10 000 игроков, и у них есть повторяющиеся записи....
798 просмотров
schedule 05.01.2023

ошибка сборки sbt - дедупликация: другое содержимое файла найдено в следующем
Я получаю следующую ошибку, когда делаю ./sbt assembly в своем проекте Scala. Я увидел первое после добавления этих зависимостей в мой build.sbt я могу скомпилировать и запустить свой код. libraryDependencies ++= Seq( "org.scalanlp" %...
8620 просмотров

Набор Java с несколькими критериями равенства
У меня есть особое требование, когда мне нужно дедуплицировать список объектов на основе комбинации критериев равенства. например Два объекта Student равны, если: 1. firstName и id совпадают ИЛИ 2. lastName, class и emailId совпадают Я...
1127 просмотров
schedule 15.11.2023