Как лучше всего тестировать ETL - сравнение исходных и целевых данных

Текущая установка, которая у нас есть для тестирования ETL:

Целевая база данных хранилища данных подключена к исходной базе данных через связанный сервер.

Команда QA написала сценарий, который будет читать, преобразовывать данные из исходной базы данных и сравнивать результат с таблицами в хранилище данных, столбец за столбцом для выборки из 100 000 записей.

Политика компании может лишить связь связанного сервера, и в этом случае не будет связи между исходной и целевой базами данных для сравнения столбцов по столбцам.

Есть ли другой способ сделать это без использования какого-либо инструмента ETL (потому что это то, что тестируется)

Я могу придумать третью программу, например (Python и т. Д.), Которая устанавливает соединения с базой данных как с исходной, так и с целевой базами данных, загружает данные и выполняет сравнение файлов или что-то в этом роде. Есть идеи получше?

Существуют ли какие-либо инструменты для этого типа тестирования?


person Koustav    schedule 13.01.2018    source источник


Ответы (1)


На мой взгляд, есть три способа проверить этот сценарий:

i) Использование сторонней программы (Python / Java)

ii) Руководство (просмотр и сравнение / загрузка в формате CSV и сравнение)

iii) Использование инструментов автоматизации тестирования ETL

Вариант (i) вы уже упомянули.

Вариант ii) Для некоторого подмножества данных Вы можете просмотреть и сравнить данные между исходной и целевой базами данных. Или вы можете загрузить образцы данных из источника и цели в Excel и использовать макросы для сравнения и проверки данных. Но поскольку это требует ручных действий, это займет много времени и не даст хорошего покрытия данных из-за использования образцов.

Вариант iii) Для сравнения и проверки данных доступны некоторые лицензированные инструменты, такие как Query Surge, BI Validator, DB Solo и т. Д. DB Solo может делать только сравнение БД с БД. Кроме того, вы не сможете проверить сложные преобразования с помощью DB Solo. Принимая во внимание, что Query Surge и BI Validator могут выполнять сравнение и проверку данных из БД в БД, из БД в файл, из файла в БД, из файла в файл. Это также может помочь вам проверить сложные преобразования, если таковые имеются, между исходными и целевыми данными.

Вы также можете использовать эти инструменты для дальнейшей проверки данных на разных уровнях вашего хранилища данных и автоматизации большей части тестирования ETL. Чтобы изучить возможности инструмента ETL, посетите эту wiki.

person Mika Wolf    schedule 12.02.2018
comment
Спасибо, проверим упомянутые вами инструменты. - person Koustav; 25.02.2018