Как Tachyon обмениваться данными между заданиями Spark

Я новичок в Tachyon. Я хочу поделиться некоторыми данными или rdd между искровыми заданиями. Обзор тахиона говорит

Tachyon - это распределенная система хранения с открытым исходным кодом, ориентированная на память, обеспечивающая надежный обмен данными со скоростью памяти между заданиями кластера.

Но я не могу понять, как это включить. Я знаю только, что тахион может действовать как слой кеш-памяти вне кучи в Spark. Спасибо.


person starrynight92    schedule 26.06.2016    source источник
comment
Сохранить в FS с уровнем тахионов, перечитать в другой работе?   -  person zero323    schedule 26.06.2016
comment
@ zero323 попробую. Спасибо   -  person starrynight92    schedule 26.06.2016


Ответы (1)


Я не думаю, что вам нужно делать это явно, Alluxio поможет вам управлять совместным использованием данных.

Предположим, у вас есть два искровых задания A и B, и они настроены на получение данных из Alluxio.

Предположим, что в Alluxio еще нет данных, а задание A и задание B выполняются одновременно. Когда задание A выполняется, Alluxio сначала извлекает данные из UFS, обслуживает вычислительные ресурсы и кэширует данные в свое локальное хранилище, например в память. Когда задание B запрашивает данные для запроса, Alluxio сначала проверяет свое локальное хранилище, чтобы удовлетворить потребности задания B. Он будет получать данные из UFS, только если отсутствует кеш. Теперь данные распределяются через разные рабочие места.

Итак, вкратце, я думаю, что обмен данными здесь на самом деле является упомянутым вами кешем.

person Eugene    schedule 21.11.2019