Публикации по теме 'deduplication'
Дедупликация записей - решение проблемы с помощью машинного обучения?
Реальные данные далеки от совершенства. Когда мы вводим данные в систему, такую как Salesforce CRM, скорее всего, копия этой записи уже существует. Эти дубликаты необходимо удалить, чтобы наши продажи и маркетинг работали эффективно и результативно. Более чем одна запись о клиенте в CRM вредит нашему охвату. Выявление повторяющихся записей с вариациями и сохранение единственной их копии называется дедупликацией .
Дедупликация - важный этап очистки данных, при котором одна и та же..
Вопросы по теме 'deduplication'
Вывод дедупликации SimHash в MapReduce
Я реализую алгоритм SimHash [1] для дедупликации набора данных с помощью MapReduce.
Например, если у меня есть 3 документа Doc1, Doc2, Doc3, Doc4. Предположим, что Doc1 похож на Doc3 с расстоянием Хэмминга меньше 3. Тогда после выполнения...
409 просмотров
schedule
15.01.2022
Дедупликация с использованием HiveQL
У меня есть таблица кустов с полями «a» (int), «b» (string), «c» (bigint), «d» (bigint) и «e» (string). У меня есть такие данные, как:
a b c d e
---------------
1 a 10 18 i
2 b 11 19 j
3 c 12 20 k
4 d 13 21 l
1 e 14 22 m...
1814 просмотров
schedule
27.02.2022
Удаление повторяющихся записей из JOIN в MS Access
Мой коллега попросил меня помочь с запросом в MS Access, который объединяет три таблицы. Я подтвердил, что порядок и внутренний/внешний статус JOIN соответствует моему коллеге. (У них есть три таблицы, A, B и C; им нужны все записи из таблицы B...
1138 просмотров
schedule
01.06.2022
Удаление дубликатов документов из поиска в Elasticsearch
У меня есть индекс с большим количеством бумаги с одинаковым значением для одного и того же поля. У меня есть одна дедупликация на этом поле.
Агрегаторы придут ко мне в качестве счетчиков. Мне нужен список документов.
Мой индекс:
Документ...
26729 просмотров
schedule
19.06.2022
Список дедупликации/объединения словарей Python
Скажем, у меня есть список диктов:
list = [{'name':'john','age':'28','location':'hawaii','gender':'male'},
{'name':'john','age':'32','location':'colorado','gender':'male'},...
1260 просмотров
schedule
17.07.2022
Собрать уникальные URL-адреса изображений из HTML
Использование PHP для скручивания веб-страницы (некоторый URL-адрес, введенный пользователем, давайте предположим, что он действителен). Пример: http://www.youtube.com/watch?v=Hovbx6rvBaA .
Мне нужно проанализировать HTML и извлечь все...
1444 просмотров
schedule
18.08.2022
Java: отложенная очередь, которая устраняет дублирование
Доброго времени суток всем,
У меня есть система (источник), которая должна асинхронно уведомлять другую систему (цель) при изменении определенных объектов. Хитрость заключается в том, что исходная система может изменять один объект много раз за...
2528 просмотров
schedule
05.07.2023
Как я могу удалить дубликаты (дедупликацию) почтового ящика электронной почты формата mbox?
У меня есть почтовый ящик mbox, содержащий дубликаты сообщений, которые отличаются только заголовком «X-Evolution:».
Я хочу удалить дубликаты как можно быстрее и проще. Вроде бы это уже было написано, но я не нашел, хотя просматривал модуль...
2766 просмотров
schedule
05.05.2023
Каков наилучший способ дедупликации имеющейся у меня информации?
Мне нужно найти и удалить повторяющиеся файлы (.pst) и в конечном итоге получить уникальные электронные письма. В настоящее время я использую Powershell для рекурсивного просмотра папок, чтобы найти только файлы .pst, а затем экспортировать...
165 просмотров
schedule
22.04.2023
Sql server 2008 R2 сопоставления / дедупликации данных
Каковы варианты выполнения процесса очистки данных (дедупликации / сопоставления) при работе с MS SQL Server 2008 R2? Или еще лучше, как я могу взвесить баллы в процессе сопоставления по столбцам строки? Ситуация следующая: у меня есть таблица лиц в...
931 просмотров
schedule
21.10.2022
Удалить дубликаты из таблицы LUA по отметке времени
Я был в стеке несколько дней назад, чтобы помочь вставить записи для предотвращения дубликатов. Однако процесс входа в них медленный, и они проскальзывают.
У меня есть пользовательская база около 10 000 игроков, и у них есть повторяющиеся записи....
798 просмотров
schedule
05.01.2023
ошибка сборки sbt - дедупликация: другое содержимое файла найдено в следующем
Я получаю следующую ошибку, когда делаю ./sbt assembly в своем проекте Scala. Я увидел первое после добавления этих зависимостей в мой build.sbt я могу скомпилировать и запустить свой код.
libraryDependencies ++= Seq(
"org.scalanlp" %...
8620 просмотров
schedule
16.03.2023
Набор Java с несколькими критериями равенства
У меня есть особое требование, когда мне нужно дедуплицировать список объектов на основе комбинации критериев равенства.
например Два объекта Student равны, если: 1. firstName и id совпадают ИЛИ 2. lastName, class и emailId совпадают
Я...
1127 просмотров
schedule
15.11.2023