Управляйте размером файла для S3 с помощью Spark и Alluxio

Я использую Spark для записи данных в Alluxio с UFS как S3, используя партиционную секционированную таблицу Hive. Я использую функцию перераспределения в полях раздела Hive, чтобы сделать операцию записи эффективной в Alluxio. Это приводит к созданию одного файла в Alluxio, то есть одного объекта в S3 для комбинации разделов. Хотя Alluxio имеет функцию чтения данных в байтах, используя смещение от S3, но в конечном итоге он кэширует весь файл/объект из S3. Если размер файла увеличится до ТБ, это станет дополнительной нагрузкой для памяти Alluxio. Пожалуйста, предложите, как можно контролировать размер файла.


person Nupur Bharati    schedule 02.07.2019    source источник


Ответы (1)


Хотя Alluxio имеет функцию чтения данных в байтах, используя смещение от S3, но в конечном итоге он кэширует весь файл/объект из S3.

Это утверждение неверно. Хотя объект S3 может быть ТБ, в Alluxio все объекты кэшируются с точностью до блоков Alluxio (по умолчанию 512 МБ каждый). В результате, если ваше приложение касается только байтов объекта, Alluxio будет кэшировать блоки, содержащие эти байты, а не все блоки для этого объекта.

person apc999    schedule 08.07.2019