Ottimizzare l'indice lucene per guadagnare spazio su disco ed efficienza

Problema

La cartella lucene index è di diversi gigabyte.

Soluzioni

Soluzione 1: Rimuovi i nodi dell'evento di audit dall'indice tramite la configurazione dell'indicizzazione.

  1. Trova e prepara il file indexing_configuration.xml per la modifica.

    In CQ5.2.x-5.4 e CRX1.x-2.2, è possibile trovare la configurazione dell'indicizzazione in questa posizione:

    • In CQSE: crx-quickstart/server/runtime/0/WEB-INF/classes/indexing_configuration.xml
    • In server app di terze parti, è contenuto nel file WAR CRX sotto WEB INF/classes/indexing_configuration.xml

    In CQ5.5 / CRX2.3+, consulta questo articolo per come modificare indexing_configuration.xml.

  2. Aggiungi la seguente regola dell'indice in cima al file indexing_configuration.xml:

    <index-rule nodeType="cq:AuditEvent">
    </index-rule>
    Nota:

    Se disattivi l'indicizzazione degli eventi di audit, il rapporto di audit CQ non funziona più.

ATTENZIONE: Se disattivi l'evidenziazione del supporto, gli estratti dei risultati della ricerca non funzioneranno più in CQ.

Soluzione 2: Disattivare la funzione di evidenziazione può anche aiutare a ridurre le dimensioni complessive dell'indice.

crx-quickstart/repository/workspace/crx.default/workspace.xml

<SearchIndex class="com.day.crx.query.lucene.LuceneHandler">
    ...
    <param name="supportHighlighting" value="false" />
</SearchIndex>
Nota:

Se disattivi l'evidenziazione del supporto, gli estratti dei risultati della ricerca non funzionano più in CQ.

Soluzione 3: Aggiornare tika-config.xml per disabilitare l'indicizzazione di PDF e MS Office Binaries.

CQ5.3-5.4 / CRX2.0-2.2

In CQ5.3, CQ5.4 e CRX2.0-2.2, procedere come segue:

  1. Accedi al tuo server e apri un prompt dei comandi e cambia le directory in rx-quickstart/server/runtime/0/_crx/WEB-INF/lib
  2. Esegui questo comando per estrarre il file tika-config.xml dal jar jackrabbit-core (assicurati di avere il java jdk installato con il comando jar):
    jar -xvf jackrabbit-core*.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  3. Modifica il file estratto org/apache/jackrabbit/core/query/lucene/tika-config.xml e modificalo come necessario.  Vedi l'allegato tika-config.xml per un esempio.
  4. jar -uvf jackrabbit-core-*.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  5. Riavvia CQ per rendere effettive le modifiche apportate.

CQ5.5/CRX2.3

In CQ5.5, per aggiornare tika-config.xml, fare quanto segue:

  1. Per prima cosa vai alla Console Web Felix http://<host>:<port>/system/console e trova il bundle
    "Day CRX Sling - CRX Embedded Repository com.day.crx.sling.server".
  2. Copia il numero ID del bundle, è il numero sul lato sinistro.
  3. Accedi al tuo server e apri un prompt dei comandi.
  4. Cambia le cartelle nella posizione in cui è memorizzato il bundle (<id> è il numero id dal passo 2):
    cd crx-quickstart/launchpad/felix/bundle<id>
  5. Cambia le directory in cui le jar incorporate sono salvati in modo permanente usando questo comando (la cartella della versione in uso X.Y potrebbe avere una versione superiore a 0.0):
    cd version0.0/bundle.jar-embedded/
  6. Esegui questo comando per estrarre il file tika-config.xml dal file jar (il tuo jar jackrabbit-core potrebbe avere una versione superiore a 2.4.0):
    jar -xvf jackrabbit-core-2.4.0.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  7. Modifica il file estratto org/apache/jackrabbit/core/query/lucene/tika-config.xml e modificalo come necessario.  Vedi l'allegato tika-config.xml per un esempio.
  8. Per aggiornare il file xml nel jar jackrabbit-core, esegui questo comando:
    jar -uvf jackrabbit-core-2.4.0.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  9. Riavvia CQ per rendere effettive le modifiche apportate.

ATTENZIONE: disattivando questa funzione non sarà più possibile trovare documenti PDF o documenti Office ricercando in CQ utilizzando termini contenuti nel contenuto dei file.

Istruzioni per CQ5.5/CRX2.3 con service pack da 2.1 in poi:

In CQ5.5/CRX2.3 il file di configurazione di Apache Tika risiede all'interno del jar jackrabbit-core e si aggiorna a qualsiasi service pack sovrascrivendo questa modifica. Dal service pack 2.1 è stata fornita un'opzione di configurazione da configurare all'esterno del jar jackrabbit-core.

  1. Salva il file tika-config.xml in <cq_home>/crx-quickstart/repository/workspaces/crx.default/tika-config.xml
  2. Modifica l'elemento SearchIndex per includere tikaConfigPath. Esempio per l'elemento SearchIndex in workspace.xml a [1].
  3. Riavvia CQ per rendere effettive le modifiche apportate.
[1] repository/workspace/crx.default/workspace.xml
<SearchIndex class="com.day.crx.query.lucene.LuceneHandler">
     <param name="path" value="${wsp.home}/index"/>
     <param name="resultFetchSize" value="50"/>
     <param name="tikaConfigPath" value="${wsp.home}/tika-config.xml"/>
</SearchIndex>

Ricostruire l'indice di ricerca:

Dopo aver apportato le modifiche, sarà necessario ricostruire l'indice di ricerca.

  1. Stop CQ/CRX
  2. Esegui il backup e cancella queste directory sul server:
    crx-quickstart/repository/repository/index
    crx-quickstart/repository/workspaces/crx.default/index
  3. Avvia CQ/CRX (IMPORTANTE: La reindicizzazione può richiedere da 1 a 48 ore a seconda della quantità di contenuti che hai nel tuo archivio.  Assicurati di aver coordinato con gli utenti per avere una finestra di interruzione corretta.)

Scarica

Per scaricare tika-config.xml per CRX2.3 fai clic qui

Informazioni aggiuntive

Apache Tika è un toolkit open source che rileva ed estrae metadati e contenuti strutturati da vari tipi di file. &nbsp;È usato dall'indice di ricerca CRX Lucene per l'estrazione del testo e da CQ DAM per l'estrazione dei metadati. È possibile aggiornare il file tika-config.xml per aggiungere le proprie implementazioni personalizzate di estrazione del testo e per disabilitare le estrazioni di testo su file binari come i pdf e i documenti microsoft excel, word e powerpoint.Nel caso di questo articolo, abbiamo disabilitato l'estrazione del testo su alcuni tipi di file per ridurre la dimensione dell'indice di ricerca Lucene di CQ.

Logo Adobe

Accedi al tuo account