Problema

La carpeta de índice de lucene es de varios gigabytes.

Soluciones

Solución 1: Elimine los nodos de eventos de auditoría del índice mediante la configuración de indexación.

  1. Buscar y preparar el fichero indexing_configuration.xml para su modificación.

    En CQ5.2.x-5.4 y CRX1.x-2.2, puede encontrar la configuración de indexación bajo esta ubicación:

    • En CQSE: crx-quickstart/server/runtime/0/WEB-INF/classes/indexing_configuration.xml
    • En un servidor de aplicaciones de terceros, está contenido en el archivo de guerra CRX bajo WEB INF/classes/indexing_configuration.xml

    En CQ5.5 / CRX2.3+, vea este artículo sobre cómo modificar el archivo indexing_configuration.xml.

  2. Añada la siguiente regla de indexación en la parte superior del fichero indexing_configuration.xml.

    <index-rule nodeType="cq:AuditEvent">
    </index-rule>

    Nota:

    Si desactiva la indexación de eventos de auditoría, el informe de auditoría de CQ ya no funciona.

ADVERTENCIA: Si desactiva la función de resaltado, los extractos de los resultados de búsqueda dejarán de funcionar en CQ.

Solución 2: Desactivar la función de resaltado también puede ayudar a reducir el tamaño general del índice.

crx-quickstart/repository/workspaces/crx.default/workspace.xml

<SearchIndex class="com.day.crx.query.lucene.LuceneHandler">
    ...
    <param name="supportHighlighting" value="false" />
</SearchIndex>

Nota:

Si desactiva la función de resaltado, los extractos de los resultados de la búsqueda ya no funcionan en CQ.

Solución 3: Actualice tika-config.xml para desactivar la indexación de los binarios de PDF y MS Office.

CQ5.3-5.4 / CRX2.0-2.2

En CQ5.3, CQ5.4 y CRX2.0-2.2, haga lo siguiente:

  1. Inicie sesión en su servidor y abra una línea de comandos y cambie los directorios a crx-quickstart/server/runtime/0/_crx/WEB-INF/lib
  2. Ejecute este comando para extraer el tika-config.xml del jackrabbit-core jar (asegúrese de tener instalado el jdk de java con el comando jar):
    jar -xvf jackrabbit-core*.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  3. Modifique el archivo extraído org/apache/jackrabbit/core/query/lucene/tika-config.xml y modifique según sea necesario.  Vea el tika-config.xml adjunto para ver un ejemplo.
  4. jar -uvf jackrabbit-core-*.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  5. Reinicie para que se apliquen los cambios.

CQ5.5/CRX2.3

En CQ5.5, para actualizar tika-config.xml, haga lo siguiente:

  1. Primero vaya a la Consola Web Felix http://<host>:<port>/system/console and find the
    "Day CRX Sling - CRX Embedded Repository com.day.crx.sling.server" bundle.
  2. Copie el número de identificación del paquete, que es el número que aparece a la izquierda.
  3. Inicie sesión en su servidor y abra una línea de comandos.
  4. Cambiar directorios a la ubicación donde se almacena el paquete (<id>es el número de identificación del paso 2):
    cd crx-quickstart/launchpad/felix/bundle<id>
  5. Cambie los directorios donde persisten los tarros incrustados usando este comando (su carpeta versionX.Y puede tener una versión superior a 0.0):
    cd version0.0/bundle.jar-embedded/
  6. Ejecute este comando para extraer el archivo tika-config.xml del archivo jar (su jarra jackrabbit-core puede tener una versión superior a la 2.4.0):
    jar -xvf jackrabbit-core-2.4.0.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  7. Modifique el archivo extraído org/apache/jackrabbit/core/query/lucene/tika-config.xml y modifique según sea necesario.  Vea el tika-config.xml adjunto para ver un ejemplo.
  8. Para actualizar el archivo xml en el jar jackrabbit-core, ejecute este comando:
    jar -uvf jackrabbit-core-2.4.0.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  9. Reinicie para que se apliquen los cambios.

ADVERTENCIA: Al desactivar esta función ya no podrá encontrar documentos PDF u Office mediante la búsqueda de CQ utilizando términos contenidos en el contenido de los archivos.

Instrucciones para CQ5.5/CRX2.3 con el Service Pack 2.1 y siguientes:

En CQ5.5/CRX2.3, el archivo de configuración de Apache Tika reside en el jar jackrabbit-core y se actualiza a cualquier service pack para sobrescribir este cambio. Desde el Service Pack 2.1 se proporcionó una opción de configuración para configurar fuera de jackrabbit-core jar.

  1. Guarde el tika-config.xml en <cq_home>/crx-quickstart/repository/workspaces/crx.default/tika-config.xml
  2. Modifique el elemento SearchIndex para incluir tikaConfigPath. Ejemplo de elemento SearchIndex en workspace.xml en [1].
  3. Reinicie para que se apliquen los cambios.
[1] repository/workspace/crx.default/workspace.xml
<SearchIndex class="com.day.crx.query.lucene.LuceneHandler">
     <param name="path" value="${wsp.home}/index"/>
     <param name="resultFetchSize" value="50"/>
     <param name="tikaConfigPath" value="${wsp.home}/tika-config.xml"/>
</SearchIndex>

Reconstruya el índice de búsqueda:

Después de hacer los cambios, tendrá que reconstruir el índice de búsqueda.

  1. Detener CQ/CRX
  2. Copia de seguridad y eliminación de estos directorios en el servidor:
    crx-quickstart/repository/repository/index
    crx-quickstart/repository/workspaces/crx.default/index
  3. Inicie CQ/CRX (IMPORTANTE: La reindexación puede tardar entre 1 y 48 horas dependiendo de la cantidad de contenido que tenga en su repositorio.  Asegúrese de que se ha coordinado con sus usuarios para tener una ventana de corte adecuada.)

Descargar

Para descargar tika-config.xml para CRX2.3 Haga clic aquí

Información adicional

Apache Tika es un kit de herramientas de código abierto que detecta y extrae metadatos y contenido estructurado de varios tipos de archivos. Es utilizado por el índice de búsqueda CRX Lucene para la extracción de texto y por CQ DAM para la extracción de metadatos. Puede actualizar el archivo tika-config.xml para añadir sus propias implementaciones de extracción de texto personalizadas y desactivar las extracciones de texto en archivos binarios como pdfs y documentos de Microsoft Excel, Word y PowerPoint.En el caso de este artículo, desactivamos la extracción de texto en ciertos tipos de archivos para reducir el tamaño del índice de búsqueda de Lucene de CQ.

Esta obra está autorizada con arreglo a la licencia de Reconocimiento-NoComercial-CompartirIgual 3.0 Unported de Creative Commons.  Los términos de Creative Commons no cubren las publicaciones en Twitter™ y Facebook.

Avisos legales   |   Política de privacidad en línea