У меня много сомнений по поводу Spark + Delta.
1) Databricks предлагает 3 слоя (бронза, серебро, золото), но какой слой рекомендуется использовать для машинного обучения и почему? Я полагаю, они предлагают очистить и подготовить данные в золотом слое.
2) Если мы абстрагируем концепции этих трех слоев, можем ли мы рассматривать бронзовый слой как озеро данных, серебряный слой как базы данных и золотой слой как хранилище данных? Я имею в виду с точки зрения функциональности.
3) Дельта-архитектура - коммерческий термин, или это эволюция архитектуры Каппа, или новая трендовая архитектура, как архитектура Лямбда и Каппа? В чем разница между (Delta + Lambda Architecture) и Kappa Architecture?
4) Во многих случаях Delta + Spark масштабируется намного больше, чем большинство баз данных, обычно гораздо дешевле, и если мы все настроим правильно, мы можем получить результаты запросов почти в 2 раза быстрее. Я знаю, что довольно сложно сравнивать фактические хранилища данных трендов с хранилищем данных Feature / Agg Data Store, но я хотел бы знать, как я могу провести это сравнение?
5) Раньше я использовал Kafka, Kinesis или Event Hub для потокового процесса, и мой вопрос в том, какие проблемы могут возникнуть, если мы заменим эти инструменты таблицей Delta Lake (я уже знаю, что все зависит от многих вещей, но я хотел бы иметь общее видение этого).