Я просматривал приведенную ниже ссылку для решения проблем с качеством данных в хранилище данных.
http://www.kimballgroup.com/2007/10/an-architecture-for-data-quality/
" Реагирование на события качества Я уже отмечал, что каждый экран качества должен решить, что произойдет, когда возникнет ошибка. Возможные варианты: 1) остановка процесса, 2) отправка оскорбительных записей в файл ожидания для последующей обработки. и 3) просто пометить данные тегами и передать их на следующий этап конвейера. Третий вариант, безусловно, является наилучшим выбором».
В некоторых многомерных фидах (например, в списке клиентов) иногда мы получаем одного и того же клиента дважды (две записи имеют разные атрибуты). Какое лучшее решение в этом сценарии?
Я не хочу отклонять обе записи (так как это будет означать неполные данные клиента).
Исходные системы очень медленно решают проблему, поэтому мы сталкиваемся с одними и теми же проблемами каждый день. Это означает, что решить проблему вручную также сложно, так как это нужно делать каждый день (список клиентов мы получаем каждый день).
Выбор одной записи невозможен, так как мы не знаем правильного значения.
Наличие обеих записей на нашем складе означает, что наши соединения нарушены. Из-за двух строк для одного и того же идентификатора строки таблицы фактов удваиваются (при соединении).
Есть предположения?