Узел имени выходит из строя после перезапуска узлов кластера высокой доступности Hadoop после отключения питания

Я настроил кластер HA Hadoop с двумя узлами имен и узлами журнала с автоматическим контролем отказоустойчивости. он начинает штрафы при запуске после формата namenode. Но это не удается при перезапуске кластера. Я также попытался поднять кластер по порядку.

запустить все узлы журнала
запустить активный узел имени
запустить резервный узел (используя начальную загрузку) и запустить узел имени
запустить zkserver на всех узлах
запустить все узлы данных.
отформатируйте zkfc на активном узле, затем запустите
отформатируйте zkfc на резервном узле, затем запустите.

он работает нормально до этапа 5, и все узлы не работают (оба узла имени работают и находятся в режиме ожидания). Когда я запустил zkfc, узел имени выходит из строя и получает узел журнала ошибок, не отформатированный.

(перед этим шагом я успешно начал настройку, отформатировав активный узел имени, во второй раз, когда я начал, я удалил формат узла имени на шаге 2):

как запустить установку после выключения и перезагрузки?

<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///usr/local/hadoop/data/nameNode</value>
<final>true</final>
</property>

<property>
<name>dfs.datanode.data.dir</name>
<value>file:///usr/local/hadoop/data/dataNode</value>
<final>true</final>
</property>

<property>
<name>dfs.replication</name>
<value>2</value>
</property>

<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

<property>
<name>dfs.nameservices</name>
<value>ha_cluster</value>
</property>

<property>
 <name>dfs.ha.namenodes.ha_cluster</name>
 <value>sajan,sajan2</value>
 </property>

 <property>
 <name>dfs.namenode.rpc-address.ha_cluster.sajan</name>
 <value>192.168.5.249:9000</value>
 </property>

 <property>
 <name>dfs.namenode.rpc-address.ha_cluster.sajan2</name>
 <value>192.168.5.248:9000</value>
 </property>

 <property>
 <name>dfs.namenode.http-address.ha_cluster.sajan</name>
 <value>192.168.5.249:50070</value>
 </property>

 <property>
 <name>dfs.namenode.http-address.ha_cluster.sajan2</name>
 <value>192.168.5.248:50070</value>
 </property>

 <property>
 <name>dfs.namenode.shared.edits.dir</name>
 <value>qjournal://192.168.5.249:8485;192.168.5.248:8485;192.168.5.250:8485/ha_cluster</value>
 </property>
 <property>
 <name>dfs.client.failover.proxy.provider.ha_cluster</name>
 <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
 </property>
 <property>
 <name>dfs.ha.automatic-failover.enabled</name>
 <value>true</value>
 </property>
 <property>
 <name>ha.zookeeper.quorum</name>
 <value>192.168.5.249:2181,192.168.5.248:2181,192.168.5.250:2181,192.168.5.251:2181,192.168.5.252:2181,192.168.5.253:2181</value>
 </property>
 <property>
 <name>dfs.ha.fencing.methods</name>
 <value>sshfence</value>
 </property>
 <property>
 <name>dfs.ha.fencing.ssh.private-key-files</name>
 <value>/home/hadoop/.ssh/id_rsa</value>
 </property>

</configuration>

hadoop failover apache-zookeeper

Sajanraj 30.05.2019 источник

comment

Можете ли вы указать ошибки, которые появляются в журналах NN? Кроме того, будет полезно дважды проверить Конфигурация высокой доступности в hdfs-site.xml - rsantiago 30.05.2019

comment

добавлен hdfs-site.xml выше. Настройка начинается с успеха изначально. Когда я перезапускаю все узлы после отключения питания, происходит сбой, и мне приходится снова форматировать namenode. Мне нужно стабилизировать это. я всегда останавливаю это в обратном порядке каждый раз, когда перезагружаю свою систему. - Sajanraj 30.05.2019

comment

Если форматирование HDFS решает состояние конфигурации HA, я думаю, что проблема связана с данными. Но важно определить ошибки, которые впервые появляются в NameNode. Пожалуйста, прикрепите ошибки, которые вы видите в журналах. - rsantiago 31.05.2019

comment

Спасибо бро я понял. Проблема в остановке кластера. Я закрыл аварийную службу перед остановкой узла имени и узла журнала. - Sajanraj 31.05.2019

Ответы (1)

arrow_upward
0
arrow_downward

Если вы хотите остановить службу, используйте приведенный ниже порядок. Я потерял 2 рабочих дня, чтобы понять это.

остановить все узлы имен.
остановить все узлы журнала.
остановить все узлы данных.
остановить отказоустойчивую службу.
остановить zkserver

Sajanraj 31.05.2019

Узел имени выходит из строя после перезапуска узлов кластера высокой доступности Hadoop после отключения питания

Ответы (1)

Вопросы по теме