Optimiere den Lucene-Index, um Speicherplatz und Effizienz zu gewinnen

Problem

Der Lucene-Indexordner ist mehrere Gigabyte groß.

Lösungen

Lösung 1: Entfernen Sie Audit-Ereignisknoten über die Indizierungskonfiguration aus dem Index.

  1. Suchen Sie und bereiten Sie die Datei indexing_configuration.xml für die Änderung vor.

    In CQ 5.2.x-5.4 und CRX1.x-2.2 finden Sie die Indizierungskonfiguration unter diesem Speicherort:

    • In CQSE: crx-quickstart/server/runtime/0/WEB-INF/classes/indexing_configuration.xml
    • In Anwendungsservern von Drittanbietern ist es in der CRX-war-Datei unter WEB INF/classes/indexing_configuration.xml enthalten

    Für CQ 5.5 / CRX2.3+ finden Sie in diesem Artikel, wie Sie die indexing_configuration.xml ändern können.

  2. Fügen Sie die folgende Indexregel oben in der Datei indexing_configuration.xml hinzu:

    <index-rule nodeType="cq:AuditEvent">
    </index-rule>
    Hinweis:

    Wenn Sie die Indizierung von Audit-Ereignissen deaktivieren, funktioniert der CQ-Audit-Bericht nicht mehr.

WARNUNG: Wenn Sie die Unterstützung der Hervorhebung deaktivieren, funktionieren in CQ Suchergebnis-Auszüge nicht mehr.

Lösung 2: Deaktivieren der Hervorhebungsfunktion kann ebenfalls helfen, die Gesamtgröße des Index zu reduzieren.

crx-quickstart/repository/workspaces/crx.default/workspace.xml

<SearchIndex class="com.day.crx.query.lucene.LuceneHandler">
    ...
    <param name="supportHighlighting" value="false" />
</SearchIndex>
Hinweis:

Wenn Sie die Unterstützung der Hervorhebung deaktivieren, funktionieren in CQ Suchergebnis-Auszüge nicht mehr.

Lösung 3: Aktualisieren Sie tika-config.xml, um die Indizierung von PDF- und MS Office-Binärdateien zu deaktivieren.

CQ 5.3-5.4 / CRX2.0-2.2

In CQ 5.3, CQ 5.4 und CRX2.0-2.2 gehen Sie wie folgt vor:

  1. Melden Sie sich bei Ihrem Server an und öffnen Sie eine Eingabeaufforderung, und ändern Sie die Verzeichnisse zu crx-quickstart/server/runtime/0/_crx/WEB-INF/lib
  2. Führen Sie diesen Befehl aus, um die Datei tika-config.xml aus der zentralen jackrabbit-Komponente jar zu extrahieren (stellen Sie sicher, dass Sie den java jdk mit dem Befehl jar installiert haben):
    jar -xvf jackrabbit-core*.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  3. Ändern Sie die extrahierte Datei org/apache/jackrabbit/core/query/lucene/tika-config.xml und modofizieren Sie sie nach Bedarf.  Ein Beispiel finden Sie in der angehängten Datei tika-config.xml.
  4. jar -uvf jackrabbit-core-*.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  5. Starten Sie CQ neu, damit die Änderungen wirksam werden.

CQ5.5/CRX2.3

Führen Sie in CQ 5.5 die folgenden Schritte aus, um tika-config.xml zu aktualisieren:

  1. Rufen Sie zunächst die Felix-Web-Konsole http://<host>:<port>/system/console auf und suchen Sie das Bundle
    „Day CRX Sling - CRX Embedded Repository com.day.crx.sling.server“.
  2. Kopieren Sie die ID-Nummer des Bundles, dies ist die Nummer auf der linken Seite.
  3. Melden Sie sich bei Ihrem Server an und öffnen Sie eine Eingabeaufforderung.
  4. Ändern Sie die Verzeichnisse an den Speicherort, an dem das Bundle gespeichert ist (<id> ist die ID-Nummer aus Schritt 2):
    cd crx-quickstart/launchpad/felix/bundle<id>
  5. Ändern Sie die Verzeichnisse, in denen die eingebetteten jar-Dateien beibehalten werden, mit diesem Befehl (Ihr versionX.Y-Ordner kann eine höhere Version als 0.0 haben):
    cd version0.0/bundle.jar-embedded/
  6. Führen Sie diesen Befehl aus, um die Datei tika-config.xml aus der jar-Datei zu extrahieren (Ihr Jackrabbit-Core-jar kann eine höhere Version als 2.4.0 haben):
    jar -xvf jackrabbit-core-2.4.0.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  7. Ändern Sie die extrahierte Datei org/apache/jackrabbit/core/query/lucene/tika-config.xml und modofizieren Sie sie nach Bedarf.  Ein Beispiel finden Sie in der angehängten Datei tika-config.xml.
  8. Um die XML-Datei im Jackrabbit-Core-jar zu aktualisieren, führen Sie folgenden Befehl aus:
    jar -uvf jackrabbit-core-2.4.0.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  9. Starten Sie CQ neu, damit die Änderungen wirksam werden.

WARNUNG: Wenn Sie diese Funktion deaktivieren, können Sie keine PDF- oder Office-Dokumente mehr finden, indem Sie in CQ nach Begriffen suchen, die im Inhalt der Dateien enthalten sind.

Anweisungen für CQ5.5/CRX2.3 ab Service Pack 2.1 aufwärts:

In CQ5.5/CRX2.3 befindet sich die Apache Tika-Konfigurationsdatei im Jackrabbit-Core-jar und die Aktualisierung auf ein Service Pack überschreibt diese Änderung. Ab Service Pack 2.1 wird eine Konfigurationsoption zur Konfiguration außerhalb des Jackrabbit-Core-jars bereitgestellt.

  1. Speichern Sie die Datei tika-config.xml unter <cq_home>/crx-quickstart/repository/workspaces/crx.default/tika-config.xml
  2. Ändern Sie das SearchIndex-Element, um tikaConfigPath einzuschließen. Beispiel für das SearchIndex-Element in workspace.xml unter [1].
  3. Starten Sie CQ neu, damit die Änderungen wirksam werden.
[1] repository/workspace/crx.default/workspace.xml
<SearchIndex class="com.day.crx.query.lucene.LuceneHandler">
     <param name="path" value="${wsp.home}/index"/>
     <param name="resultFetchSize" value="50"/>
     <param name="tikaConfigPath" value="${wsp.home}/tika-config.xml"/>
</SearchIndex>

Den Suchindex neu erstellen:

Nachdem Sie die Änderungen vorgenommen haben, müssen Sie den Suchindex neu erstellen.

  1. Beenden Sie CQ/CRX.
  2. Sichern und löschen Sie diese Verzeichnisse auf dem Server:
    crx-quickstart/repository/repository/index
    crx-quickstart/repository/workspaces/crx.default/index
  3. Starten Sie CQ/CRX (WICHTIG: Die erneute Indizierung kann zwischen 1 Stunde und 48 Stunden dauern, abhängig von der Menge des Inhalts, den Sie in Ihrem Repository haben.  Stellen Sie sicher, dass Sie sich mit Ihren Benutzern abgestimmt haben, um ein passendes Unterbrechungs-Fenster zu haben.).

Herunterladen

Um Tika-config.xml für CRX2.3 herunterzuladen, klicken Sie hier

Weitere Informationen

Apache Tika ist ein Open-Source-Toolkit, das Metadaten und strukturierte Inhalte aus verschiedenen Dateitypen erkennt und extrahiert. Es wird vom CRX Lucene-Suchindex für die Textextraktion und von CQ DAM für die Metadatenextraktion verwendet. Sie können die Datei tika-config.xml aktualisieren, um eigene benutzerdefinierte Textextraktionsimplementierungen hinzuzufügen und Textextraktionen für Binärdateien wie PDFs und Microsoft Excel-, Word- und Powerpoint-Dokumente zu deaktivieren. Im Fall dieses Artikels deaktivieren wir die Textextraktion bei bestimmten Dateitypen, um die Größe des Lucene-Suchindex von CQ zu reduzieren.

 Adobe

Schneller und einfacher Hilfe erhalten

Neuer Benutzer?

Adobe MAX 2024

Adobe MAX
Die Konferenz für Kreative

14. bis 16. Oktober in Miami Beach und online

Adobe MAX

Die Konferenz für Kreative

14. bis 16. Oktober in Miami Beach und online

Adobe MAX 2024

Adobe MAX
Die Konferenz für Kreative

14. bis 16. Oktober in Miami Beach und online

Adobe MAX

Die Konferenz für Kreative

14. bis 16. Oktober in Miami Beach und online