Sintomas para o crescimento do diretório de índice

O crescimento do diretório de índices será devido a

Caso 1: - O conteúdo é adicionado ou modificado continuamente no espaço de trabalho. Essa operação provavelmente resulta na criação de um novo segmento (as pastas na pasta de índice) com novos documentos.

Case2: - O segmento criado acima precisa ser mesclado. Este processo ocorre de forma assíncrona e é acionado por modificações no repositório. A mesclagem de segmentos será executada até que seja concluída e continuará sendo executada quando nenhuma outra alteração for executada.

Como distinguir os dois casos acima

  • As novas pastas de índice e Tar PM criados em uma taxa constante para o caso 1.
  • Ao mesmo tempo, novas pastas/segmentos de índice eventualmente mesclados em outros maiores, indica o caso 2. A maioria das mesclagens de índice é rápida porque o segmento de índice resultante não é tão grande. Mas, de vez em quando, segmentos de índice maiores são mesclados, o que levará algum tempo e também consumirá mais espaço em disco. Uma mesclagem de índice é feita em segundo plano e notará atividade mesmo que não haja alterações feitas no repositório. Da pasta/segmento único do sistema de arquivos continua crescendo. Esse arquivo único é o segmento de destino da mesclagem.

Observação:

 

  • Caso o repositório tenha sido encerrado antes da conclusão da mesclagem de segmentos. No próximo início da instância, o repositório iniciará uma mesclagem de segmentos a partir do zero.
  • As mesclagens de índice são registradas no nível INFO no crx error.log como [1]. Use o comando Grep para buscar nos logs "IndexMerger" e classificar pelo número para saber o número de documentos que foram mesclados.

    [1] *INFO * IndexMerger: merged 250 documents in 724 ms into _21f. (IndexMerger.java, .....

Considerações sobre o espaço em disco

A mesclagem de segmentos de índice pode usar temporariamente até três vezes o tamanho do índice inicial. Como um exemplo

  1. Vamos dizer 10 segmentos de índice, cada um com um tamanho de 1 GB. 
  2. Durante o processo de mesclagem de índice, cria-se um novo segmento, obtendo o conteúdo do índice dos 10 segmentos existentes. O segmento resultante será então de até 10 GB. Pode ser menor porque o processo de mesclagem não copiará os nós que foram marcados como excluídos nos 10 segmentos de origem.
  3. No próximo estágio, o novo segmento é copiado em um formato de arquivo composto para reduzir o número de manipuladores de arquivo necessários para acessar o índice. Isso novamente requer aproximadamente o mesmo tamanho no disco. No nosso exemplo aqui, novamente 10 GB.

A soma dos três acima agora resulta no novo tamanho do índice de aproximadamente 30 GB de espaço em disco. No entanto, em uma etapa final, os segmentos de índice antigos e os arquivos não compostos são excluídos e reduzem o uso do disco para 10 GB.

Controlando a mesclagem de índices

  • Por padrão, o número máximo de nós nos segmentos que serão mesclados é Integer.MAX_VALUE.  
  • Para limitar o uso de disco temporário durante as mesclagem de segmentos, use o parâmetro de configuração "maxMergeDocs" dentro do elemento SearchIndex no arquivo workspace.xml. O parâmetro "maxMergeDocs" configura o número máximo de documentos que devem ser mesclados em um único segmento.
  • O valor preferencial de maxMergeDocs depende do repositório. Analise os arquivos de segmentos de índice existentes (por exemplo, usando Luke) para descobrir quantos documentos estão em um segmento de índice.

Reduzindo o tamanho do índice

Reduza o número de nós removendo nós que não são necessários, como instâncias de fluxo de trabalho concluídas, log de auditoria, etc. Artigos que ajudam

  • https://helpx.adobe.com/br/cq/kb/howtopurgewf.html
  • https://helpx.adobe.com/br/cq/kb/how-to-optimize-lucene-index-to-gain-efficiency.html
  • https://helpx.adobe.com/br/communique/kb/Stopwordlist.html

Além disso, indexar novamente o workspace também pode reduzir o tamanho do índice, pois o índice não libera espaço em disco imediatamente quando um nó é excluído. Isso só acontece quando o segmento de índice afetado que continha o nó é mesclado.

Esta obra está licenciada sob uma licença não adaptada da Creative Commons Attribution-Noncommercial-Share Alike 3.0  As publicações do Twitter™ e do Facebook não são cobertas pelos termos do Creative Commons.

Avisos legais   |   Política de privacidade online