Мне нужно синхронизировать данные о клиентах из нескольких локальных баз данных в облаке. На втором этапе данные о клиентах нуждаются в некоторой очистке, чтобы удалить дубликаты (разных типов). На основе этих очищенных данных мне нужно провести некоторую аналитику данных.
Для достижения этой цели я ищу платформу с открытым исходным кодом или облачное решение, которое я могу использовать. Я изучил Apache Apex и Apache Kafka, но не уверен, что это правильные решения.
Не могли бы вы подсказать, какие фреймворки вы бы использовали для такой задачи?