Clustering | Instância subordinada para de funcionar

Sintoma

Falhas ao iniciar as instâncias de subordinados são observadas em vários cenários, como abaixo:

a) Interrupção do nó subordinado para Cold Backup e, em seguida, reinício
b) Desativação do Cluster para operações de manutenção e, em seguida, início dos nós do cluster

 

Causas

1) Problemas de rede no lado da infraestrutura - O suborndinado encontra a situação "Leitura do mestre com tempo limite esgotado"

On Master:
com.day.crx.core.cluster.ClusterMaster I/O error while processing connect. java.net.SocketTimeoutException: Read timed out
On Slave:
com.day.crx.core.cluster.ClusterMaster I/O error while processing connect. java.net.SocketTimeoutException: Read timed out

Solução: Verifique sua infra-estrutura de rede e certifique-se de que não haja alterações de firewall ou interrupções, para validar se os nós Mestre e Subordinado são capazes de se comunicar uns com os outros.

 

2) Sequência incorreta seguida para os nós Início Interrupção dos nós do Cluster - Causando uma situação "Fora de Sincronia"

* ClusterTarSet: Could not open (ClusterTarSet.java, line 820)
java.io.IOException: This cluster node and the master are out of sync. Operation stopped.
Please ensure the repository is configured correctly.
To continue anyway, please delete the index and data tar files on this cluster node and restart.
Please note the Lucene index may still be out of sync unless it is also deleted

Análise e Possível motivo de Nós de Cluster Fora de Sincronização

Você se depara com essa situação devido à sequência imprópria de desligamento e reinício dos nós do cluster. Se o servidor no qual a instância principal residia foi desativado como parte da manutenção rotineira e o subordinado assumiu como novo mestre e teve permissão para executar como uma instância autônoma. Mais tarde, quando o subordinado foi interrompido e a instância mestre foi iniciada, o subordinado se recusou a participar e os nós ficaram fora de sincronia. Isso é esperado, pois o subordinado terá novas revisões. 

 

Solução: 

a) Deixe o nó Subordinado antigo ser executado como o novo Mestre.

b) Inicie o Mestre antigo e deixe-o entrar como Subordinado Atual por enquanto.

c) Permita que o Mestre Antigo [Subordinado Atual] conecte-se ao Subordinado Antigo [Novo Mestre] e se sincronize com as últimas revisões. 

d) Assim que a sincronização terminar, você poderá alternar as funções dos nós Mestre e Subordinado apenas parando e reiniciando o Nó Mestre atual [Subordinado Antigo].

e) Quando o Mestre Atual [Subordinado Antigo] é interrompido, o Subordinado Atual [Mestre Antigo] retoma a função Mestre.

 

3) Exclusão manual do arquivo de marcadores Clustered.txt em qualquer nó do cluster interrompido - Isso faz com que a instância seja iniciada como nó mestre enquanto deveria iniciar como nó subordinado e se juntar a um Mestre existente

Análise e Possível Motivo para Nós de Cluster Fora de Sincronização

Se você se deparar com qualquer situação abrupta ou desligamento inadequado de sua instância principal em execução, a instância principal não poderá entrar novamente no cluster após ser reiniciada. Isso pode ocorrer nos casos em que uma operação de gravação estava em andamento no momento em que o nó principal foi interrompido ou em que uma operação de gravação ocorreu alguns segundos antes da interrupção da instância principal. Nesses casos, a instância do subordinado poderá não receber todas as alterações da instância do mestre. Quando o mestre for reinicializado, o CRX detectará que está fora de sincronia com as instâncias de cluster restantes e o repositório não será iniciado.

Possivelmente, você tentou iniciar o nó do cluster principal excluindo o arquivo clustered.txt manualmente. De um modo geral, o clustered.txt não deverá ser excluído em momento algum para iniciar a instância. Ele é um arquivo marcador para nos informar que esta instância deverá ingressar como subordinada na próxima vez que for iniciada. O nó do cluster que interrompe por último não contém o arquivo clustered.txt. Isso ajuda a identificar que esse nó foi o último nó mestre em execução e deverá ser iniciado primeiro.

Se este arquivo estiver presente, o nó não poderá ser iniciado como nó mestre. Você deverá receber uma mensagem como abaixo.

Explicação:

Significa que havia outro nó de cluster em execução mesmo depois que esse nó foi interrompido, para que o nó tivesse as últimas revisões e conteúdo. Assim, o último nó que está sendo interrompido no cluster será o nó Mestre sempre que você iniciar os nós do cluster.

 

ClusterController: Trying to connect to a master, as the file clustered.txt exists.
Observação:

O Clustered.txt não deverá ser excluído em momento algum para iniciar a instância. Isso só deverá ser feito caso você queira iniciar a instância como autônoma e não torná-la parte do cluster.

Solução:

a) Interrompa o Nó Subordinado que lançou esta exceção Fora de Sincronização

b) Interrompa o nó mestre atualmente em execução (que foi iniciado com a exclusão do arquivo clustered.txt)

c) Inicie o Nó Subordinado (como, neste caso, seria o último mestre em execução, já que tem as revisões mais recentes). Ele assumirá como novo Mestre

d) Inicie o nó mestre que se juntaria ao cluster como subordinado

e) Depois que a sincronização terminar, você poderá parar e iniciar o nó Mestre atual em execução (Subordinado Antigo) para recuperar a consistência da função do Mestre se comportando como Mestre e Subordinado se comportando como Subordinado.

Observação:

 

a) Para obter mais informações sobre a situação Fora de Sincronização, consulte nosso link de documentação

b) Para obter mais informações sobre o procedimento para Clonar o Subordinado, consulte nosso link de documentação

 

Tenha em mente ao clonar o Mestre para criar o Subordinado

Devido a desligamento abrupto/reinicialização forçada/problemas de rede/ falhas de energia, etc. de qualquer um dos nós do cluster, se você tiver um problema fora de sincronia em que os nós do cluster não sejam mais sincronizados entre si, como procedimento de recuperação, será necessário restaurar do backup antigo ou recriar o nó do cluster.

Nesses cenários, você precisará criar um clone de um nó de cluster e uni-lo ao cluster como Subordinado, portanto, você precisará identificar qual nó estava executando o nó Mestre pela última vez, pois esse nó terá o conteúdo e as revisões mais recentes. Em seguida, você deverá executar o backup apenas nesse nó e criar um Subordinado.

Observação:

Caso tente clonar o nó errado (o Mestre antigo sendo parado primeiro), você terá grandes chances de perder os dados presentes no último nó em execução. Portanto, certifique-se de que, ao escolher qual nó será clonado, você identificará o nó correto.

Observação:

Este artigo se aplica a todas as versões do CQ 5.x que possuem somente a versão 2.X do CRX (maior que 2.2.0.36)

Logotipo da Adobe

Fazer logon em sua conta