Я использую Spark для записи данных в Alluxio с UFS как S3, используя партиционную секционированную таблицу Hive. Я использую функцию перераспределения в полях раздела Hive, чтобы сделать операцию записи эффективной в Alluxio. Это приводит к созданию одного файла в Alluxio, то есть одного объекта в S3 для комбинации разделов. Хотя Alluxio имеет функцию чтения данных в байтах, используя смещение от S3, но в конечном итоге он кэширует весь файл/объект из S3. Если размер файла увеличится до ТБ, это станет дополнительной нагрузкой для памяти Alluxio. Пожалуйста, предложите, как можно контролировать размер файла.
Управляйте размером файла для S3 с помощью Spark и Alluxio
Ответы (1)
Хотя Alluxio имеет функцию чтения данных в байтах, используя смещение от S3, но в конечном итоге он кэширует весь файл/объект из S3.
Это утверждение неверно. Хотя объект S3 может быть ТБ, в Alluxio все объекты кэшируются с точностью до блоков Alluxio (по умолчанию 512 МБ каждый). В результате, если ваше приложение касается только байтов объекта, Alluxio будет кэшировать блоки, содержащие эти байты, а не все блоки для этого объекта.
person
apc999
schedule
08.07.2019