Otimize o índice de lucene para ganhar espaço em disco e eficiência

Problema

A pasta do índice lucene é de vários gigabytes.

Soluções

Solução 1: remover os nós de evento de auditoria do índice por meio da configuração de indexação.

  1. Localize e prepare o arquivo indexing_configuration.xml para modificação.

    No CQ5.2.x-5.4 e no CRX1.x-2.2, você pode encontrar a configuração de indexação sob este local:

    • No CQSE: crx-quickstart/server/runtime/0/WEB-INF/classes/indexing_configuration.xml
    • No servidor de aplicativos de terceiros, ele está contido no arquivo war do CRX em WEB INF/classes/indexing_configuration.xml

    Em CQ5.5 / CRX2.3, consulte este artigo para saber como modificar o indexing_configuration.xml.

  2. Inclua a seguinte regra de índice na parte superior do arquivo indexing_configuration.xml:

    <index-rule nodeType="cq:AuditEvent">
    </index-rule>
    Observação:

    Se você desabilitar a indexação de eventos de auditoria, o relatório de auditoria do CQ não funcionará mais.

AVISO: se você desativar o suporte ao realce, os trechos do resultado da pesquisa não funcionarão mais no CQ.

Solução 2: desativar o recurso de realce também pode ajudar a reduzir o tamanho geral do índice.

crx-quickstart/repository/workspaces/crx.default/workspace.xml

<SearchIndex class="com.day.crx.query.lucene.LuceneHandler">
    ...
    <param name="supportHighlighting" value="false" />
</SearchIndex>
Observação:

Se você desativar o suporte ao realce, os trechos do resultado da pesquisa não funcionarão mais no CQ.

Solução 3: atualize o tika-config.xml para desabilitar a indexação de PDF e binários do MS Office.

CQ5.3-5.4 / CRX2.0-2.2

No CQ5.3, CQ5.4 e CRX2.0-2.2, faça o seguinte:

  1. Faça login no seu servidor e abra um prompt de comando e mude os diretórios para crx-quickstart/server/runtime/0/_crx/WEB-INF/lib
  2. Execute este comando para extrair o tika-config.xml do jar jackrabbit-core (certifique-se de ter o java jdk instalado com o comando jar):
    jar -xvf jackrabbit-core*.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  3. Modifique o arquivo org/apache/jackrabbit/core/query/lucene/tika-config.xml extraído e modifique conforme necessário.  Veja o tika-config.xml em anexo para um exemplo.
  4. jar -uvf jackrabbit-core-*.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  5. Reinicie o CQ para que as alterações tenham efeito.

CQ5.5/CRX2.3

No CQ5.5, para atualizar o tika-config.xml, faça o seguinte:

  1. Primeiro, vá até o Felix Web Console http://<host>:<port>/system/console e localize o 
    Pacote "Day CRX Sling - CRX Embedded Repository com.day.crx.sling.server".
  2. Copie o número de ID do pacote, este é o número no lado esquerdo.
  3. Faça o login no seu servidor e abra um prompt de comando.
  4. Altere os diretórios para o local onde o pacote está armazenado (<id> é o número de identificação da etapa 2):
    cd crx-quickstart/launchpad/felix/bundle<id>
  5. Altere os diretórios para onde os jars incorporados são mantidos usando este comando (sua pasta versionX.Y pode ter uma versão superior a 0.0):
    cd version0.0/bundle.jar-embedded/
  6. Execute este comando para extrair o arquivo tika-config.xml do arquivo jar (seu jar do jackrabbit-core pode ter uma versão superior a 2.4.0):
    jar -xvf jackrabbit-core-2.4.0.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  7. Modifique o arquivo org/apache/jackrabbit/core/query/lucene/tika-config.xml extraído e modifique conforme necessário.  Veja o tika-config.xml em anexo para um exemplo.
  8. Para atualizar o arquivo xml no jar do jackrabbit-core, execute este comando:
    jar -uvf jackrabbit-core-2.4.0.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  9. Reinicie o CQ para que as alterações tenham efeito.

AVISO: ao desativar esse recurso, você não poderá mais localizar documentos PDF ou do Office pesquisando o CQ usando os termos contidos no conteúdo dos arquivos.

Instruções para CQ5.5 / CRX2.3 com service pack 2.1 em diante:

No CQ5.5 / CRX2.3, o arquivo de configuração do Apache Tika reside dentro do jar do jackrabbit-core e atualiza para qualquer service pack sobrescrever essa alteração. Do service pack 2.1 forneceu uma opção de configuração para configurar fora do jar jackrabbit-core.

  1. Salve o tika-config.xml em <cq_home>/crx-quickstart/repository/workspaces/crx.default/tika-config.xml
  2. Modifique o elemento SearchIndex para incluir o tikaConfigPath. Exemplo para o elemento SearchIndex no workspace.xml em [1].
  3. Reinicie o CQ para que as alterações tenham efeito.
[1] repository/workspace/crx.default/workspace.xml
<SearchIndex class="com.day.crx.query.lucene.LuceneHandler">
     <param name="path" value="${wsp.home}/index"/>
     <param name="resultFetchSize" value="50"/>
     <param name="tikaConfigPath" value="${wsp.home}/tika-config.xml"/>
</SearchIndex>

Reconstruir o índice de pesquisa:

Depois de fazer as alterações, você precisará reconstruir o índice de pesquisa.

  1. Pare CQ/CRX
  2. Faça backup e exclua esses diretórios no servidor:
    crx-quickstart/repository/repository/index
    crx-quickstart/repository/workspaces/crx.default/index
  3. Iniciar CQ / CRX (IMPORTANTE: A nova indexação pode levar de 1 a 48 horas, dependendo da quantidade de conteúdo que você tem em seu repositório.  Certifique-se de ter coordenado com seus usuários para ter uma janela de interrupção adequada.)

Download

Para fazer o download do tika-config.xml para o CRX2.3 Clique aqui

Informações adicionais

O Apache Tika é um kit de ferramentas de software livre que detecta e extrai metadados e conteúdo estruturado de vários tipos de arquivos. Ele é usado pelo índice de pesquisa do CRX Lucene para extração de texto e pelo CQ DAM para extração de metadados. Você pode atualizar o arquivo tika-config.xml para adicionar suas próprias implementações de extração de texto personalizadas e para desabilitar extrações de texto em arquivos binários como pdfs e documentos microsoft excel, word e powerpoint.No caso deste artigo, desabilitamos a extração de texto em determinados tipos de arquivo para reduzir o tamanho do índice de pesquisa Lucene do CQ.

Logotipo da Adobe

Fazer logon em sua conta