Question

Comment empêcher CRX d'ajouter/d'indexer des arborescences spécifiques de mon contenu dans l'index de recherche ?

 

Réponse, résolution

Par défaut, CRX n’inclut pas de moyen d’exclure certains chemins d’accès, mais la technique suivante peut être réalisée :

  1. Revoyez d'abord les étapes pour savoir comment apporter des modifications à votre fichier de classement indexing_config.xml.
  2. Ajoutez les règles suivantes au début du fichier indexing_config.xml :
    <index-rule nodeType="nt:base" condition="@excludefromindex='true'" />
    <index-rule nodeType="nt:base" condition="ancestor::*/@excludefromindex='true'" />

     
    cela exclura les nœuds avec la propriété « excludefromindex » réglée sur true et tous leurs sous-noeuds.
     
  3. L’étape suivante consiste à ajouter la propriété « excludefromindex » au nœud supérieur des chemins que vous souhaitez exclure du référencement.

    Étant donné que les nœuds sous /content sont CQ : Les nœuds et les propriétés de page ne peuvent pas être ajoutés à CQ : Les nœuds de pages, nous configurerons un type de nœud de mixin avec la propriété « excludefromindex ».
     Lorsque vous ajoutez le type mixin au noeud cq: Page, il ajoute automatiquement la propriété 'excludefromindex'.

    Pour créer le mixin :
    a. Accédez à l’application web /crx/index.jsp et connectez-vous en tant qu’administrateur (si vous utilisez CRX2.3 ou une version ultérieure, accédez à /crx/explorer/index.jsp)
    b. Cliquez sur « Administration du type de nœud »
    c. Dans l’outil administration du type de nœud, créez un type de mixin doté d'une propriété unique 'excludefromindex' de type chaîne avec la valeur par défaut « true ».
    d. Définissez l’indicateur AutoCreate de la propriété sur True.
    e. Avec l’explorateur de contenu, ajoutez le type de mixin au niveau supérieur noeuds cq:Page du site que vous souhaitez exclure de la recherche.

  4. À ce stade, vous n’avez pas encore terminé l’opération.  Même si vous avez ajouté le type de nœud, le contenu existe toujours dans l’index de recherche.  Pour supprimer le contenu de l’index de recherche, vous devez réindexer l’arborescence du contenu.

    Pour ce faire, vous disposez des options suivantes :
  • Reconstruction de l’index de recherche lucene :
    a. Arrêtez CRX
    b. Sauvegardez et supprimez crx-quickstart/repository/workspaces/crx.default/index
    c. Démarrez CRX (ce processus peut prendre un certain temps, entre 1 à 48 heures, en fonction de la taille de votre référentiel ; planifiez en conséquence).
  • Ou utilisez le 'touch_tree.jsp' ci-joint pour 'toucher' la partie du contenu que vous souhaitez ré-indexer (ne fonctionne pas dans CRX2.3 +, valable uniquement pour les versions CRX2.2.x et antérieures) :

    a. Pour exécuter touch_tree.jsp, il faut d'abord l'ajouter à l’application web CRX.  Copiez le fichier sous crx-quickstart/server/runtime/0/_crx/config/.
    b. Accédez à http://localhost:4502/crx et connectez-vous en tant qu'administrateur.
    c. Accédez à http://localhost:4502/crx/config/touch_tree.jsp
    d. Entrez un tracé et exécutez le processus.

    Ce script lit chaque nœud/propriété dans l'arborescence puis écrit à nouveau les mêmes données. Par conséquent, le contenu est à nouveau classifié.  Notez bien que si vous utilisez la configuration de persistance par défaut pour CRX (Tar Persistence Manager), les fichiers tar prendront un peu d'ampleur.  Au cours de ce processus, vous pouvez voir InvalidItemStateException si d’autres écritures sont effectuées sur CRX pendant l’exécution de touch_tree.jsp.

AVERTISSEMENT : Cela ne doit pas être effectué dans une instance d'auteur de CQ, car cela va endommager la recherche de référence qui se produit lorsque vous tentez de déplacer une page ou un actif.  Cela peut entraîner des liens non valides sur votre site.  Toutefois, ce processus est sécurisé s'il est utilisé pour une instance de publication CQ.

[1] http://dev.day.com/content/kb/home/cq5/CQ5SystemAdministration/SearchIndexingConfig.html

 

S’applique à

CRX 2.x

Telechargement

Ce produit est distribué sous licence Creative Commons Attribution - Pas d’utilisation commerciale - Partage à l’identique 3.0 non transposé  Les publications Twitter™ et Facebook ne sont pas couvertes par les dispositions Creative Commons.

Mentions légales   |   Politique de confidentialité en ligne