Реплика HDFS + и минимальное количество узлов данных в кластере HDFS

у нас есть кластер Hadoop только с двумя узлами данных

в конфигурации HDFS мы определили от Block replication до 3

so

Block replication=3

Это нормально? к определенному Block replication=3 , когда у нас есть только два узла данных в кластере

насколько я понимаю, когда мы определили блок replication=3, в то время как у нас есть 2 машины узлов данных в кластере HDFS, это означает, что одна машина должна иметь 2 реплики, а другая машина - одну реплику, я прав?


person Judy    schedule 01.07.2020    source источник


Ответы (1)


Вся цель фактора репликации — отказоустойчивость. Например, коэффициент репликации равен 3, и если мы потеряем узел данных Hadoop из кластера, мы можем реплицировать данные с еще двумя копиями в кластере. Итак, в вашем случае, если число узлов данных равно 2, а коэффициент репликации равен 3, да, если узел-a будет иметь 2 копии, а другой узел-b имеет 1 копию (скажем). Если мы потеряем узел-a или узел-b, здесь у нас будут данные, доступные в другом узле, которые в любом случае будут служить цели. За исключением того факта, что node-a будет занимать двойное пространство, что не нужно, поскольку фактор репликации 2 сам по себе уже удовлетворяет цели отказоустойчивости.

Опять же, все это объяснение относится к вашему случаю. И вся концепция будет иметь больше смысла, когда она визуализируется в кластере с более чем двумя узлами.

Ниже приведено подробное объяснение из документов Hadoop https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html#Data+Replication

person Immanuel Fredrick    schedule 08.07.2020