Disable binary text extraction to optimize Lucene indexing

This article explains how to disable indexing of the contents of binary files such as PDFs and Office documents which reduces index growth going forward. If you perform a reindex on the disabled indexes, it reduces the overall index size.

Environment

AEM 6.x

Steps

To disable indexing of PDF and Microsoft Office documents:

  1. Go to http://host:port/crx/packmgr/index.jsp and log in as admin.

  2. Upload and install the attached package.

  3. Restart AEM (this is done to free up any stuck indexing threads, if there are any).

If your overall objective is to reduce the amount of disk space consumed by indexes, then follow these extra steps:

  1. Go to http://host:port/crx/de/index.jsp and log in as admin.

  2. Browse to /oak:index/lucene.

  3. Set the reindex property to true.

  4. Browse to /oak:index/damAssetLucene.

  5. Set the reindex property to true.

  6. Click Save All. This triggers reindexing of the two indexes.

  7. Follow this article for how to monitor indexing.

  8. If you have a datastore, then run Datastore Garbage Collection.

Tải xuống

 Adobe

Nhận trợ giúp nhanh chóng và dễ dàng hơn

Bạn là người dùng mới?

Adobe MAX 2024

Adobe MAX
Hội thảo sáng tạo

14–16/10 Bãi biển Miami và trực tuyến

Adobe MAX

Hội thảo sáng tạo

14–16/10 Bãi biển Miami và trực tuyến

Adobe MAX 2024

Adobe MAX
Hội thảo sáng tạo

14–16/10 Bãi biển Miami và trực tuyến

Adobe MAX

Hội thảo sáng tạo

14–16/10 Bãi biển Miami và trực tuyến