Alluxio с / без HDFS

У меня есть кластер с HDFS в качестве распределенной файловой системы под хранилищем, но я только что прочитал о alluxio, быстром и гибком. Итак, у меня вопрос: следует ли мне использовать Alluxio с HDFS или Alluxio является альтернативой HDFS? (Я вижу на их сайте, что общее хранилище для файловой системы под хранилищем может быть сетевой файловой системой (NFS). Так что я думаю, что HDFS не требуется. Исправьте меня, если я сделаю ошибку).

В каком режиме производительность лучше: HDFS с Alluxio или Alluxio stanalone (я имею в виду, что термин автономный должен использоваться отдельно в кластере, а не локально).


person DAVID_ROA    schedule 30.08.2018    source источник
comment
AFAIK, это альтернатива. Похоже на MapRFS, возможно, и конкурирует с IgniteFs   -  person OneCricketeer    schedule 30.08.2018
comment
Итак, если это альтернатива, зачем ему общая система хранения, такая как HDFS, NFS, S3 и т. Д.? HDFS или другие не нуждаются в них совместно с системой хранения и работают с локальными файловыми системами машин кластера.   -  person DAVID_ROA    schedule 30.08.2018
comment
Подобно тому, как HDFS является абстракцией над файловыми системами локальных машин, Alluxio является абстракцией над другими уровнями хранения, такими как HDFS, но это не требование, поэтому это альтернатива - см. alluxio.org/docs/1.8/en/Alluxio-Storage.html, а не Under Stores   -  person OneCricketeer    schedule 30.08.2018


Ответы (1)


Ответ от сопровождающего Alluxio.

Прежде всего, Alluxio не заменяет HDFS. Вместо этого это новый уровень абстракции поверх других распределенных / облачных систем хранения, включая HDFS, S3, Azure Object Store и другие возможные варианты. В вашем случае, если ваши данные уже находятся в HDFS, вы, возможно, по-прежнему сохраните HDFS в качестве постоянного уровня данных для Alluxio.

Типичные сценарии, в которых пользователи демонстрируют Alluxio и видят значительные преимущества, включают:

  • Ваши физические данные не находятся на вашем компьютере. Например, ваш движок bigdata читает данные из S3 или другого объектного хранилища. В этом случае, развернув Alluxio с вычислительными узлами, можно заставить Alluxio работать как кеш уровня файловой системы, чтобы избежать повторной выборки данных по сети. См. http://www.alluxio.org/overview/remote-data-acceleration
  • Вы управляете несколькими хранилищами и хотите предоставить единый уровень доступа к данным, чтобы упростить управление. Например, можно «смонтировать» несколько сегментов S3 / в одно развертывание Alluxio, чтобы они отображались как разные каталоги в одном пространстве имен. См. http://www.alluxio.org/overview/storage-unification.

Относительно вашего исходного вопроса о производительности. Ответ: это зависит от обстоятельств. Если ваша HDFS удалена от вычислений, можно ожидать хорошего прироста производительности. Я также видел случаи, когда HDFS была узким местом, Alluxio также может помочь снизить нагрузку и обеспечить хорошее SLA для некоторых критически важных задач.

person apc999    schedule 04.09.2018
comment
Итак, в моем случае есть ли польза от использования Alluxio поверх HDFS? (Учитывая, что я использую Spark (который сам имеет механизм обработки в памяти), а HDFS не является удаленным, а мои узлы данных такие же, как вычислительные узлы). - person DAVID_ROA; 05.09.2018
comment
Я не думаю, что это целевой сценарий для Alluxio, обеспечивающий значительный выигрыш в производительности. Кроме того, всегда лучше понимать, являются ли ваши задания Spark интенсивными по вводу-выводу или интенсивным вычислениям - в последнем случае ускорение части ввода-вывода вряд ли каким-либо образом повлияет на сквозную производительность. - person apc999; 06.09.2018