Узел имени выходит из строя после перезапуска узлов кластера высокой доступности Hadoop после отключения питания

Я настроил кластер HA Hadoop с двумя узлами имен и узлами журнала с автоматическим контролем отказоустойчивости. он начинает штрафы при запуске после формата namenode. Но это не удается при перезапуске кластера. Я также попытался поднять кластер по порядку.

  1. запустить все узлы журнала
  2. запустить активный узел имени
  3. запустить резервный узел (используя начальную загрузку) и запустить узел имени
  4. запустить zkserver на всех узлах
  5. запустить все узлы данных.
  6. отформатируйте zkfc на активном узле, затем запустите
  7. отформатируйте zkfc на резервном узле, затем запустите.

он работает нормально до этапа 5, и все узлы не работают (оба узла имени работают и находятся в режиме ожидания). Когда я запустил zkfc, узел имени выходит из строя и получает узел журнала ошибок, не отформатированный.

(перед этим шагом я успешно начал настройку, отформатировав активный узел имени, во второй раз, когда я начал, я удалил формат узла имени на шаге 2):

как запустить установку после выключения и перезагрузки?

<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///usr/local/hadoop/data/nameNode</value>
<final>true</final>
</property>

<property>
<name>dfs.datanode.data.dir</name>
<value>file:///usr/local/hadoop/data/dataNode</value>
<final>true</final>
</property>

<property>
<name>dfs.replication</name>
<value>2</value>
</property>

<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

<property>
<name>dfs.nameservices</name>
<value>ha_cluster</value>
</property>

<property>
 <name>dfs.ha.namenodes.ha_cluster</name>
 <value>sajan,sajan2</value>
 </property>

 <property>
 <name>dfs.namenode.rpc-address.ha_cluster.sajan</name>
 <value>192.168.5.249:9000</value>
 </property>

 <property>
 <name>dfs.namenode.rpc-address.ha_cluster.sajan2</name>
 <value>192.168.5.248:9000</value>
 </property>

 <property>
 <name>dfs.namenode.http-address.ha_cluster.sajan</name>
 <value>192.168.5.249:50070</value>
 </property>

 <property>
 <name>dfs.namenode.http-address.ha_cluster.sajan2</name>
 <value>192.168.5.248:50070</value>
 </property>

 <property>
 <name>dfs.namenode.shared.edits.dir</name>
 <value>qjournal://192.168.5.249:8485;192.168.5.248:8485;192.168.5.250:8485/ha_cluster</value>
 </property>
 <property>
 <name>dfs.client.failover.proxy.provider.ha_cluster</name>
 <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
 </property>
 <property>
 <name>dfs.ha.automatic-failover.enabled</name>
 <value>true</value>
 </property>
 <property>
 <name>ha.zookeeper.quorum</name>
 <value>192.168.5.249:2181,192.168.5.248:2181,192.168.5.250:2181,192.168.5.251:2181,192.168.5.252:2181,192.168.5.253:2181</value>
 </property>
 <property>
 <name>dfs.ha.fencing.methods</name>
 <value>sshfence</value>
 </property>
 <property>
 <name>dfs.ha.fencing.ssh.private-key-files</name>
 <value>/home/hadoop/.ssh/id_rsa</value>
 </property>

</configuration>

person Sajanraj    schedule 30.05.2019    source источник
comment
Можете ли вы указать ошибки, которые появляются в журналах NN? Кроме того, будет полезно дважды проверить Конфигурация высокой доступности в hdfs-site.xml   -  person rsantiago    schedule 30.05.2019
comment
добавлен hdfs-site.xml выше. Настройка начинается с успеха изначально. Когда я перезапускаю все узлы после отключения питания, происходит сбой, и мне приходится снова форматировать namenode. Мне нужно стабилизировать это. я всегда останавливаю это в обратном порядке каждый раз, когда перезагружаю свою систему.   -  person Sajanraj    schedule 30.05.2019
comment
Если форматирование HDFS решает состояние конфигурации HA, я думаю, что проблема связана с данными. Но важно определить ошибки, которые впервые появляются в NameNode. Пожалуйста, прикрепите ошибки, которые вы видите в журналах.   -  person rsantiago    schedule 31.05.2019
comment
Спасибо бро я понял. Проблема в остановке кластера. Я закрыл аварийную службу перед остановкой узла имени и узла журнала.   -  person Sajanraj    schedule 31.05.2019


Ответы (1)


Если вы хотите остановить службу, используйте приведенный ниже порядок. Я потерял 2 рабочих дня, чтобы понять это.

  1. остановить все узлы имен.
  2. остановить все узлы журнала.
  3. остановить все узлы данных.
  4. остановить отказоустойчивую службу.
  5. остановить zkserver
person Sajanraj    schedule 31.05.2019