Optimisez l’indice de lucene pour gagner en espace de disque et en efficacité

Problème

Le fichier indice de lucene dispose de plusieurs gigaoctets.

Solutions

Solution 1 : supprimez les nœuds d'événements de contrôle de l'index par la configuration d'indexation.

  1. Recherchez et préparez le fichier indexing_configuration.xml à modifier.

    Dans CQ5.2.x-5.4 et CRX1.x-2.2, vous trouverez la configuration d'indexation sous cet emplacement :

    • Dans CQSE : crx-quickstart/server/runtime/0/WEB-INF/classes/indexing_configuration.xml
    • Dans le serveur d’applications tierces, elle se trouve dans le fichier CRX war sous l’adresse INF/classes/indexing_configuration.xml.

    Dans CQ5.5/CRX2.3 +, consultez cet article pour les instructions sur la modification d' indexing_configuration.xml.

  2. Ajoutez la règle liée à l'indexation suivante au début du fichier indexing_configuration.xml :

    <index-rule nodeType="cq:AuditEvent">
    </index-rule>
    Remarque :

    Si vous désactivez l'indexation des événements de contrôle, le rapport de contrôle CQ ne fonctionne plus.

Avertissement : si vous désactivez l’option de mise en surbrillance, les extraits de code de recherche ne fonctionneront plus dans CQ.

Solution 2 : la désactivation de la fonction de mise en évidence peut également contribuer à réduire la taille globale de l'indexation.

crx-quickstart/repository/workspaces/crx.default/workspace.xml

<SearchIndex class="com.day.crx.query.lucene.LuceneHandler">
    ...
    <param name="supportHighlighting" value="false" />
</SearchIndex>
Remarque :

Si vous désactivez l’assistance de mise en surbrillance, les extraits de code ne fonctionnent plus dans CQ.

Solution 3 : mise à jour du fichier tika-config.xml pour désactiver l'indexation PDF et MS Office Binaries.

CQ5.3-5.4/CRX2.0-2.2

Dans, CQ 5.3, CQ 5.4 et CRX2.0-2.2, procédez comme suit :

  1. Connectez vous à votre serveur et ouvrez une invitation de commande et modifiez les répertoires en crx-quickstart/server/runtime/0/_crx/WEB-INF/lib
  2. Exécutez cette commande pour extraire tika-config.xml du programme jackrabbit-core jar(assurez-vous que JDK Java est installé avec la commande jar) :
    jar -xvf jackrabbit-core*.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  3. Modifiez le fichier extrait à l’adresse suivante org/apache/jackrabbit/core/query/lucene/tika-config.xml et modifiez au besoin.  Consultez le fichier tika-config.xml jointe, pour voir un exemple.
  4. jar -uvf jackrabbit-core-*.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  5. Redémarrez CQ pour que les modifications prennent effet.

CQ5.5/CRX2.3

Dans CQ 5.5, afin de mettre à jour tika-config.xml, procédez comme suit :

  1. Accédez tout d'abord à l'adresse http://<host>:<port>/system/console and find the
    « Day CRX Sling - CRX Embedded Repository com.day.crx.sling.server ».
  2. Copiez le numéro d’identifiant du lot, ce qui correspond au numéro sur le côté gauche.
  3. Connectez-vous à votre serveur et ouvrez une invite de commande.
  4. Les répertoires de modification à l'emplacement où le regroupement est stocké (<id> est le numéro d'identification de l'étape 2) :
    cd crx-quickstart/launchpad/felix/bundle<id>
  5. Les répertoires de modification dans lequel les jars incorporés sont conservés avec cette commande (le fichier versionX.Y peut avoir une version supérieure à 0.0) :
    cd version0.0/bundle.jar-embedded/
  6. Exécutez cette commande pour extraire le fichier tika-config.xml à partir du fichier jar (le programme jackrabbit-core jar peut avoir une version supérieure à 2.4.0) :
    jar -xvf jackrabbit-core-2.4.0.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  7. Modifiez le fichier extrait à l’adresse suivante org/apache/jackrabbit/core/query/lucene/tika-config.xml et modifiez au besoin.  Consultez tika-config.xml jointe, pour voir un exemple.
  8. Pour mettre le fichier xml à jour dans jackrabbit-core jar, exécutez la commande suivante :
    jar -uvf jackrabbit-core-2.4.0.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  9. Redémarrez CQ pour que les modifications prennent effet.

Avertissement : en désactivant cette fonction, vous ne pourrez plus rechercher des documents PDF ou Office en recherchant des CQ à l’aide de termes contenus dans les fichiers.

Instructions pour CQ5.5/CRX2.3 avec la version service pack à partir de 2.1 :

Dans CQ5.5/CRX2.3 le fichier de configuration Apache Tika se trouve dans le programme jackrabbit-core jar et la mise à jour vers un service pack remplace cette modification. Le service pack 2.1 fournit une option de configuration pour configurer en dehors du cadre jackrabbit-core jar.

  1. Enregistrez le fichier tika-config.xml at <cq_home>/crx-quickstart/repository/workspaces/crx.default/tika-config.xml
  2. Modifiez l’élément SearchIndex pour inclure tikaConfigPath. Exemple d'élément dans SearchIndex workspace.xml à [1].
  3. Redémarrez CQ pour que les modifications prennent effet.
[1] repository/workspace/crx.default/workspace.xml
<SearchIndex class="com.day.crx.query.lucene.LuceneHandler">
     <param name="path" value="${wsp.home}/index"/>
     <param name="resultFetchSize" value="50"/>
     <param name="tikaConfigPath" value="${wsp.home}/tika-config.xml"/>
</SearchIndex>

Reconstruction de l'index de recherche :

Une fois les modifications effectuées, recréez l’index de recherche.

  1. Arrêtez CQ/CRX
  2. Sauvegardez et supprimez ces répertoires sur le serveur :
    crx-quickstart/repository/repository/index
    crx-quickstart/repository/workspaces/crx.default/index
  3. Démarrez CQ/CRX I(Important : La réindexation peut prendre entre 1 heure et 48 heures, selon la quantité de contenu que vous avez dans votre référentiel.  Assurez une coordination avec les utilisateurs pour une fenêtre d'état d'incapacité appropriée.)

Telechargement

Pour télécharger tika-config.xml CRX2.3 Cliquez ici

Informations supplémentaires

Apache Tika est un jeu d’outils Open Source qui détecte et extrait les métadonnées et le contenu structuré des différents types de fichiers.  Il est utilisé par une index de recherche CRX Lucene pour l'extraction de texte et par CQ DAM pour l'extraction de métadonnées. Vous pouvez mettre à jour le fichier tika-config.xml pour ajouter les implémentations d’extraction de texte personnalisées et pour désactiver les encarts de texte des fichiers binaires tels que les documents Pdf et Microsoft Excel, Word et Powerpoint. Dans le cas de cet article, nous désactivons l'extraction de texte dans certains types de fichiers afin de réduire la taille de l'index de recherche Lucene dans CQ.

 Adobe

Recevez de l’aide plus rapidement et plus facilement

Nouvel utilisateur ?