Управляйте размером файла для S3 с помощью Spark и Alluxio

Я использую Spark для записи данных в Alluxio с UFS как S3, используя партиционную секционированную таблицу Hive. Я использую функцию перераспределения в полях раздела Hive, чтобы сделать операцию записи эффективной в Alluxio. Это приводит к созданию одного файла в Alluxio, то есть одного объекта в S3 для комбинации разделов. Хотя Alluxio имеет функцию чтения данных в байтах, используя смещение от S3, но в конечном итоге он кэширует весь файл/объект из S3. Если размер файла увеличится до ТБ, это станет дополнительной нагрузкой для памяти Alluxio. Пожалуйста, предложите, как можно контролировать размер файла.

Nupur Bharati 02.07.2019 источник

Ответы (1)

arrow_upward
0
arrow_downward

Хотя Alluxio имеет функцию чтения данных в байтах, используя смещение от S3, но в конечном итоге он кэширует весь файл/объект из S3.

Это утверждение неверно. Хотя объект S3 может быть ТБ, в Alluxio все объекты кэшируются с точностью до блоков Alluxio (по умолчанию 512 МБ каждый). В результате, если ваше приложение касается только байтов объекта, Alluxio будет кэшировать блоки, содержащие эти байты, а не все блоки для этого объекта.

apc999 08.07.2019

Управляйте размером файла для S3 с помощью Spark и Alluxio

Ответы (1)

Вопросы по теме