Acrobat を起動します。
この文書では、スキャナから読み込んだデータを Adobe Acrobat で検索や編集が可能なテキストとして認識させる方法について説明します。
A. OCR 機能とは
「Optical Character Reader」 の略で、スキャナから印刷物の内容を取り込む時に、通常は画像として取り込まれる文字を、編集や検索対象となるテキストとして読み取ることができる機能のことです。
OCR 機能を使用しない通常の読み込みでは、文字はグラフィックとして取り込まれ、テキストの編集を行うことはできません。
B. スキャナしたデータをテキストとして認識させる方法
Acrobat では、スキャナから取り込む際に OCR (光学式文字認識) を適用して、検索や編集が可能なテキストとして認識させることができます。取り込んだ後に OCR を適用することも可能です。
スキャナで紙の文書を取り込む際に、OCR を適用して検索可能な PDF ファイルを作成するか、画像のみの PDF ファイルを作成するかを指定できます。画像のみの PDF ファイルを作成した場合、後からテキスト認識ツールを使用して、OCR を実行することもできます。
B-1. 取り込む際に OCR を適用
-
-
次のいずれかの操作を行います。
- すぐにスキャナーで読み込む場合
ファイル/作成/スキャナーから PDF/カスタムスキャン を選択します。
- プリセット設定を作成し、後からスキャナーで読み込む場合
ファイル/作成/スキャナーから PDF/プリセットを設定 を選択します。
- すぐにスキャナーで読み込む場合
-
カスタムスキャンダイアログボックスまたはプリセットを設定ダイアログボックスの「文書設定」セクションで、「検索可能にする(OCR 実行)」にチェックをいれます。
-
つづけて、「オプション」ボタンをクリックします。
-
「OCR の言語」および「PDF の出力形式」を指定して、「OK」をクリックします。
PDF の出力形式は、下記から選択します。
- 検索可能な画像 :
テキストの検索と選択を可能にします。このオプションを選択すると元の画像が保持され、必要に応じてゆがみが補正され、その上に非表示のテキストレイヤーが配置されます。 - ClearScan:
元のフォントに似た新しい Type 3 フォントを合成し、低解像度のコピーを使用してページの背景を保持します。
- 検索可能な画像 :
-
「スキャン」または「保存」ボタンをクリックしてダイアログボックスを閉じ、スキャンを開始します。
B-2. 取り込んだ後に OCR を適用
OCR を適用せずにスキャンした文書に、後から「テキスト認識ツール」で OCR を適用し、テキストを検索、修正、コピーできるようにすることができます。
注意 : OCR を PDF に適用するには、元のスキャナ解像度が 72 dpi 以上に設定されている必要があります。300 dpi でスキャンすると、変換に最適なテキストが生成されます。150 dpi では OCR の精度がわずかに低くなります。
-
Acrobat を起動し、OCR を適用する PDF ファイルを開きます。
-
以下の操作を行います。
- Acrobat
ツール/スキャン補正/テキスト認識/このファイル内 を選択します。 - Acrobat XI
ツールパネルから、テキスト認識/このファイル内 を選択します。
- Acrobat
-
第 2 ツールバー(Acrobat)/テキスト認識ダイアログボックス(Acrobat XI)で、OCR を適用するページを指定します。
Acrobat XI Acrobat XI -
続けて、「設定」(Acrobat)/「編集」ボタン(Acrobat XI)をクリックして、テキスト認識 ダイアログボックスで以下の設定を行い、「OK」をクリックします。
文書の言語(Acrobat) / OCR の言語(Acrobat XI) :
文字を認識するために使用する OCR エンジンの言語を指定します。出力(Acrobat) / PDF の出力形式(Acrobat XI) :
作成する PDF の種類を指定します。どのオプションも、72 ppi 以上(推奨)の入力解像度が必要です。どの形式でも、テキスト画像に対して OCR およびフォントとページ認識が適用され、通常のテキストに変換されます。- 検索可能な画像
テキストの検索と選択を可能にします。このオプションを選択すると、元の画像が保持され、必要に応じてゆがみが補正され、その上に非表示のテキストレイヤーが配置されます。同じダイアログボックスの「画像のダウンサンプリング」の選択項目では、画像をダウンサンプルするかどうかや、ダウンサンプリングのレベルを指定します。 - 検索可能な画像(非圧縮)
テキストの検索と選択を可能にします。このオプションを選択すると、元の画像が保持され、その上に非表示のテキストレイヤーが配置されます。元の画像を忠実に再現する必要がある場合は、このオプションを選択することをお勧めします。 - 編集可能なテキストと画像(Acrobat)
元のフォントに似た新しいカスタムフォントを合成し、低解像度のコピーを使用してページの背景を保持します。
- ClearScan(Acrobat XI)
元のフォントに似た新しい Type 3 フォントを合成し、低解像度のコピーを使用してページの背景を保持します。
ダウンサンプル : OCR が完了した後に、カラー、グレースケール、白黒の各画像のピクセル数を減らします。適用するダウンサンプリングのレベルを選択します。オプションの数値を高くすると、ダウンサンプリングがあまり適用されず、高い解像度の PDF が作成されます。
Acrobat XI Acrobat XI - 検索可能な画像
-
「OK」をクリックして、OCR を適用します。
アドビコミュニティフォーラムをご利用下さい
この文章はお役に立てましたでしょうか?さらに情報をお探しになる場合には、アドビスタッフがお届けしている解決事例やメンバー同士での活発な意見交換をチェックできるコミュニティフォーラムをご利用下さい。