Дедупликация записей - решение проблемы с помощью машинного обучения?

Реальные данные далеки от совершенства. Когда мы вводим данные в систему, такую как Salesforce CRM, скорее всего, копия этой записи уже существует. Эти дубликаты необходимо удалить, чтобы наши продажи и маркетинг работали эффективно и результативно. Более чем одна запись о клиенте в CRM вредит нашему охвату. Выявление повторяющихся записей с вариациями и сохранение единственной их копии называется дедупликацией.

Дедупликация - важный этап очистки данных, при котором одна и та же сущность представлена несколько разными способами. Этой сущностью может быть что угодно, с чем организация имеет отношения - заказчик, местонахождение, поставщик, партнер. Могут быть незначительные типографские ошибки в некоторых полях, наличие или отсутствие средних инициалов или имен, различный порядок слов, наличие суффиксов и префиксов. Поля могут вообще отсутствовать. Когда записи относятся к одному и тому же реальному объекту, их необходимо идентифицировать как дубликаты даже при всех этих различиях между их атрибутами.

Дедупликация клиентов

Большие списки клиентов часто возникают в результате объединения нескольких файлов, каждый из которых взят из другой базы данных. Некоторые поля могут присутствовать в одном файле и отсутствовать в другом. Типичная запись о клиенте будет содержать имя и адрес, а иногда и адрес электронной почты или номер телефона. Имена клиентов могут быть дополнительно разделены на имя и фамилию, инициалы, заголовок и т. Д., Все из которых могут быть либо в собственном поле, либо объединены и собраны в одном поле. Очистка данных клиентов в значительной степени зависит от дедупликации таких записей клиентов, чтобы гарантировать доступ к единственной копии клиента и ее использование.

Дедупликация адресов

Как и имена, адреса клиентов обычно не стандартизированы. Дедупликация адресов очень сложна. Часто существует больше вариантов адресов в свободной форме. Информация может быть упорядочена по-разному, населенный пункт может предшествовать названию улицы в одной адресной записи или полностью отсутствовать в другой. Сокращения, такие как St или Av. в изобилии. Номер квартиры можно указать как Номер квартиры. В адресах часто встречаются запятые, косые черты и дефисы, что еще больше усложняет дедупликацию адресов. Без надлежащего сопоставления адресов невозможно обнаружить домохозяйства или удалить дубликаты.

Дедупликация поставщика

Аналогичные проблемы существуют при дедупликации имен и адресов поставщиков. Имена поставщиков, как правило, являются названиями организаций, и они имеют суффиксы, такие как LLP, LLC, Pvt, Ltd, Corp, или суффиксы, такие как Messrs, M / S и т. Д. Опечатки и неправильные слова могут легко запутать сопоставление данных и затруднить дедупликацию. Номера телефонов часто сохраняются в разных форматах, при этом коды стран и регионов представлены по-разному или даже полностью отсутствуют.

Обученный человек может справиться со всеми этими различиями до тех пор, пока данные невелики, но по мере увеличения размеров записей невозможно выполнить дедупликацию клиентов или адресацию дедупликации вручную. Из-за тонких различий между атрибутами и отсутствия общего идентификатора среди записей правила кодирования для сопоставления клиентов или сопоставления адресов для дедупликации затруднены.

Что, если бы мы могли применить машинное обучение для поиска шаблонов дубликатов в разных наборах данных? Выкройки о вариациях? Выкройки про посторонних персонажей? Шаблоны о недостающих полях? Если бы мы могли использовать машинное обучение для дедупликации, не было бы необходимости определять сложные правила или алгоритмы для сопоставления полей. Мы больше не будем беспокоиться о порогах сходства. Обучение правилам дедупликации и сопоставления с простым ответом да и нет в отношении совпадений и несоответствий поможет. После обучения модели машинного обучения могут легко удалять дубликаты в клиентах, адресах и поставщиках, чтобы создать чистый и исчерпывающий список клиентов и поставщиков. Никогда не придется беспокоиться о беспорядочно нечистых данных в CRM и других системах.

Что вы думаете?

Дедупликация записей - решение проблемы с помощью машинного обучения?

Вопросы по теме