Когда использовать фабрику данных (копирование) вместо прямого извлечения в синапсе SQL

Я просто просматриваю какой-то документ Microsoft и занимаюсь делами, связанными с инженерией данных. У меня есть несколько запросов для сценария - скопируйте файл (ы) CSV из хранилища BLOB-объектов в аналитику Synapse (этапные таблицы):

Я читал, что мы можем выполнять прямое извлечение данных в Synapse с процессом создания внешних таблиц. (https://docs.microsoft.com/en-us/azure/synapse-analytics/sql-data-warehouse/load-data-wideworldimportersdw).

Если это возможно, то в каких случаях мы используем метод копирования фабрики данных Azure или метод потока данных? При работе с фабрикой данных Azure рекомендуется ли использовать Polybase, поскольку в этом сценарии он снова будет использовать хранилище BLOB-объектов в качестве промежуточного (т.

Я искал ответы на свои вопросы, но пока не нашел удовлетворительного ответа.


person Gopesh    schedule 03.08.2020    source источник


Ответы (1)


Если вы просто загружаете данные из CSV в DW, используйте Копировать. Polybase рекомендуется, но не всегда требуется для небольших файлов.

Если вам нужно преобразовать эти данные или выполнить обновления, используйте потоки данных.

person Mark Kromer MSFT    schedule 03.08.2020
comment
Спасибо, Марк за ответ. Я понимаю копирование и поток данных в фабрике данных. Итак, в каких случаях мы используем прямой импорт в Synapse (с созданием внешних таблиц и т. Д.) Поверх процесса фабрики данных? Просто возьмем сценарий, в котором нам нужно загрузить дамп данных (то есть одноразовое действие для всех таблиц БД) ... теперь в этом случае, что должно быть предпочтительным для фабрики данных или прямого извлечения в Synapse. И почему? - person Gopesh; 04.08.2020