問題点

Lucene のインデックスのフォルダーは数ギガバイトです。

解決策

ソリューション1:インデックス構成を介して、インデックスから監査イベントノードを削除します。

  1. 修正をするため、indexing_configuration.xml ファイルを検索し準備をします。

    CQ5.2.x-5.4 および CRX1.x-2.2 において、以下の場所にてインデックス構成を参照します。

    • CQSE は、crx-quickstart/server/runtime/0/WEB-INF/classes/indexing_configuration.xml にて
    • サードパーティアプリケーションサーバーは、WEB INF/classes/indexing_configuration.xml の CRX war ファイルに含まれています。

    CQ5.5/CRX2.3 以降は、indexing_configuration.xml の修正する方法についてはこの記事を参照してください。

  2. indexing_configuration.xml ファイルの先頭に次のインデックスルールを追加します。

    <index-rule nodeType="cq:AuditEvent">
    </index-rule>

    注意:

    監査イベントのインデックスを無効にすると、CQ 監査レポートは機能しなくなります。

警告:ハイライト表示のサポートを無効にすると、CQ で検索結果の抜粋が機能しなくなります。

ソリューション 2:ハイライト表示機能を無効にすると、全体的なインデックスのサイズを減らすのにも役立ちます。

crx-quickstart/repository/workspaces/crx.default/workspace.xml

<SearchIndex class="com.day.crx.query.lucene.LuceneHandler">
    ...
    <param name="supportHighlighting" value="false" />
</SearchIndex>

注意:

ハイライト表示のサポートを無効にすると、検索結果の抜粋が CQ では機能しなくなります。

ソリューション 3:PDF および MS Office バイナリのインデックス作成を無効にして、tika-config.xml を更新します

CQ5.3-5.4/CRX2.0-2.2

CQ 5.3において、CQ 5.4 および CRX2.0-2.2 で、次の操作を行います。

  1. サーバーにログインし、コマンドプロンプトを開き、ディレクトリを crx-quickstart/server/runtime/0/_crx/WEB-INF/lib に変更します
  2. このコマンドを実行し、jackrabbit-core jar から tika-config.xml を抽出します。(Java idk に jar コマンドがインストールされていることを確認してください。):
    jar -xvf jackrabbit-core*.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  3. 抽出したファイル、org/apache/jackrabbit/core/query/lucene/tika-config.xml を修正します。また、必要に応じて変更します。  例については、添付の tika-config.xml を参照してください。
  4. jar -uvf jackrabbit-core-*.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  5. CQ を再起動して変更を有効にします。

CQ5.5/CRX2.3

CQ 5.5で、tika-config.xml を更新するには、次の操作を行います。

  1. まず、Felix Web Console である Felix Web Console の http://<host>:<port>/system/console にアクセスし、
    「Day CRX Sling - CRX Embedded Repository com.day.crx.sling.server」バンドルを検索します。
  2. バンドルの ID 番号をコピーします。これは左側にある数字です。
  3. サーバーにログインし、コマンドプロンプトを開きます。
  4. バンドルが保管されている場所のディレクトリを変更します(<id> は手順 2 で使用された ID 番号です):
    cd crx-quickstart/launchpad/felix/bundle<id>
  5. このコマンドを使用して、埋め込まれている JAR が永続化されているディレクトリを変更します。(お持ちのバージョン X.Y フォルダーは、0.0 よりもバージョンが新しい場合があります。):
    cd version0.0/bundle.jar-embedded/
  6. このコマンドを実行し、JAR ファイルから tika-config.xml を抽出します。(お持ちの jackrabbit-core jar は 2.4.0 よりもバージョンが新しい可能性があります):
    jar -xvf jackrabbit-core-2.4.0.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  7. 抽出したファイル、org/apache/jackrabbit/core/query/lucene/tika-config.xml を修正します。また、必要に応じて変更します。  例については、添付の tika-config.xml を参照してください。
  8. jackrabbit-core JAR ファイルの xml ファイルを更新するには、このコマンドを実行します:
    jar -uvf jackrabbit-core-2.4.0.jar org/apache/jackrabbit/core/query/lucene/tika-config.xml
  9. CQ を再起動して変更を有効にします。

警告:この機能を無効にすると、ファイルのコンテンツに含まれる用語を使用して CQ を検索し、PDF または Office ドキュメントを検索できなくなります。

サービスパック 2.1 以降の CQ5.5/CRX2.3 における手順:

CQ5.5/CRX2.3 では、Apache Tika 設定ファイルは jackrabbit-core JAR 内に存在し、この変更を上書きする全てのサービスパックを更新します。設定オプションを提供するサービスパック 2.1 より、jackrabbit-core JAR の外部を設定します。

  1. <cq_home>/crx-quickstart/repository/workspaces/crx.default/tika-config.xml にて、tika-config.xml を保存します
  2. SearchIndex エレメントを修正して tikaConfigPath を組み込みます。[1] での workspace.xml における SearchIndex エレメントの例
  3. CQ を再起動して変更を有効にします。
[1] repository/workspace/crx.default/workspace.xml
<SearchIndex class="com.day.crx.query.lucene.LuceneHandler">
     <param name="path" value="${wsp.home}/index"/>
     <param name="resultFetchSize" value="50"/>
     <param name="tikaConfigPath" value="${wsp.home}/tika-config.xml"/>
</SearchIndex>

検索用インデックスを再構築します。

変更を行った後、検索用インデックスを再構築する必要があります。

  1. CQ/CRX を停止します。
  2. サーバー上でこれらのディレクトリをバックアップし削除します:
    crx-quickstart/repository/repository/index
    crx-quickstart/repository/workspaces/crx.default/index
  3. CQ/CRX を開始します(重要:インデックスの再作成は、リポジトリにおけるコンテンツの量に応じて1 時間から 48 時間ほどかかる場合があります。  適度に停止時間を取るため、ユーザーと調整をしてください。)

ダウンロード

CRX2.3 の tika-config.xml をダウンロードするには、ここをクリックしてください

追加情報

Apache Tika は、様々なファイル形式からメタデータおよび構造化されたコンテンツを検出および抽出するオープンソースツールキットです。 これは、テキスト抽出用の CRX Lucene 検索用インデックス、およびメタデータ抽出用の CQ DAM で使用されます。tika-config.xml ファイルを更新して、独自のカスタムテキストの抽出実装を追加したり、pdfs、Microsoft Excel、Word、Powerpoint ドキュメントなどのバイナリファイルのテキスト抽出を無効にすることができます。 この記事では、特定のファイル形式でテキスト抽出を無効にし、CQ の Lucene 検索用インデックスサイズを減らします。

本作品は Creative Commons Attribution-Noncommercial-Share Alike 3.0 Unported License によってライセンス許可を受けています。  Twitter™ および Facebook の投稿には、Creative Commons の規約内容は適用されません。

法律上の注意   |   プライバシーポリシー