Загружайте несколько терабайтных файлов при параллельном выполнении в базу данных AZURE Cloud SQL

У меня есть несколько терабайтных файлов, которые необходимо загрузить в базу данных, которая находится поверх высокопроизводительного сервера AZURE SQL в облаке.

На данный момент я пытаюсь загрузить эти файлы через пакет SSIS, и для 5 файлов требуется более 12 часов.

Я считаю, что HDInsight / Data Bricks находятся в Azure для обработки ETL больших данных и анализа данных с помощью Ambari и другого пользовательского интерфейса. Но можно ли использовать то же самое (HDInsight или DataBricks) для загрузки огромных файлов данных в таблицу / базу данных SQL? (Как использование кластеров для загрузки нескольких файлов в режиме параллельного выполнения)

Любое предложение / помощь очень ценится


person Gowtham Ramamoorthy    schedule 01.11.2019    source источник
comment
Какой формат у ваших файлов Terabyte? CSV или другой формат?   -  person Peter Pan    schedule 03.11.2019
comment
Это .dat; аналогичный процесс имеет формат .txt.   -  person Gowtham Ramamoorthy    schedule 03.11.2019
comment
Значит, ваш .dat файл можно читать по строкам и анализировать строку, чтобы получить запись? И вы загрузили эти файлы в облачную службу Azure, например в хранилище BLOB-объектов Azure?   -  person Peter Pan    schedule 03.11.2019
comment
Да, его можно читать по строкам. Нет, я не загружал это хранилище лазурных BLOB-объектов, файл находится на сервере облачной базы данных SQL.   -  person Gowtham Ramamoorthy    schedule 03.11.2019


Ответы (1)


Поскольку вы упомянули SSIS, мне было интересно, рассматривали ли вы вариант использования фабрики данных Azure (лично я считаю, что это будет следующая версия SSIS в облаке), действие копирования должно помочь, и оно поддерживает параллельное выполнение. Поскольку вы рассматриваете SQL Azure, нам необходимо учитывать проблему перегрузки на стороне приемника, я имел в виду сценарий, в котором все терабайты файлов пытаются записать в таблицу SQL одновременно.

person HimanshuSinha-msft    schedule 03.11.2019