Desactivar la extracción de texto binario para optimizar la indexación de Lucene

Este artículo explica cómo desactivar la indexación del contenido de archivos binarios como PDFs y documentos de Office, lo que reduce el crecimiento del índice en el futuro. Si realiza un reindex en los índices desactivados, reduce el tamaño general del índice.

Entorno

AEM 6.x

Pasos

Para desactivar la indexación de documentos PDF y Microsoft Office:

  1. Vaya a http://host:port/crx/packmgr/index.jsp e inicie sesión como administrador.

  2. Cargar e instalar el paquete adjunto.

  3. Reiniciar AEM (esto se hace para liberar los hilos de indexación atascados, si los hay).

Si su objetivo general es reducir la cantidad de espacio en disco consumido por los índices, siga estos pasos adicionales:

  1. Vaya a http://host:port/crx/de/index.jsp e inicie sesión como administrador.

  2. Buscar /oak:index/lucene.

  3. Establezca la propiedad reindex en True.

  4. Buscar /oak:index/damAssetLucene.

  5. Establecer la reindexar propiedad a verdadero.

  6. Hacer clic en Guardar todo. Esto desencadena la reindexación de los dos índices.

  7. Seguir este artículo para saber cómo supervisar la indexación.

  8. Si usted tiene un almacén de datos, entonces ejecutar Datastore Garbage Collection.

Descargar