У меня есть несколько терабайтных файлов, которые необходимо загрузить в базу данных, которая находится поверх высокопроизводительного сервера AZURE SQL в облаке.
На данный момент я пытаюсь загрузить эти файлы через пакет SSIS, и для 5 файлов требуется более 12 часов.
Я считаю, что HDInsight / Data Bricks находятся в Azure для обработки ETL больших данных и анализа данных с помощью Ambari и другого пользовательского интерфейса. Но можно ли использовать то же самое (HDInsight или DataBricks) для загрузки огромных файлов данных в таблицу / базу данных SQL? (Как использование кластеров для загрузки нескольких файлов в режиме параллельного выполнения)
Любое предложение / помощь очень ценится
.dat
файл можно читать по строкам и анализировать строку, чтобы получить запись? И вы загрузили эти файлы в облачную службу Azure, например в хранилище BLOB-объектов Azure? - person Peter Pan   schedule 03.11.2019