この文書では、スキャナから読み込んだデータを Adobe Acrobat で検索や編集が可能なテキストとして認識させる方法について説明します。

A. OCR 機能とは

「Optical Character Reader」 の略で、スキャナから印刷物の内容を取り込む時に、通常は画像として取り込まれる文字を、編集や検索対象となるテキストとして読み取ることができる機能のことです。

OCR 機能を使用しない通常の読み込みでは、文字はグラフィックとして取り込まれ、テキストの編集を行うことはできません。

B. スキャナしたデータをテキストとして認識させる方法

Acrobat では、スキャナから取り込む際に OCR (光学式文字認識) を適用して、検索や編集が可能なテキストとして認識させることができます。取り込んだ後に OCR を適用することも可能です。 

スキャナで紙の文書を取り込む際に、OCR を適用して検索可能な PDF ファイルを作成するか、画像のみの PDF ファイルを作成するかを指定できます。画像のみの PDF ファイルを作成した場合、後からテキスト認識ツールを使用して、OCR を実行することもできます。 

B-1. 取り込む際に OCR を適用

Acrobat DC の場合

  1. Acrobat を起動します。

  2. 以下のいずれかの操作を行います。

    • ファイル/作成/スキャナーから PDF を選択します。
    • ツール/PDF を作成/スキャナー を選択します。
  3. 使用するスキャナー名が表示されていることを確認し、「カラー写真」以外の設定を選択します。ここでは例として、「デフォルト設定」を選択しています。

  4. 設定アイコン(歯車アイコン)をクリックすると、カスタムスキャンページが表示されます。「テキスト認識(OCR)」にチェックが入っていることを確認します。

    「テキスト認識(OCR)」の設定アイコンをクリックすると、テキスト認識の設定ダイアログボックスが表示されます。「文書の言語」および以下から「出力」形式を指定して、「OK」をクリックします。

    • 検索可能な画像
      テキストの検索と選択を可能にします。このオプションを選択すると元の画像が保持され、必要に応じてゆがみが補正され、その上に非表示のテキストレイヤーが配置されます。
    • 編集可能なテキストと画像
      元のフォントに似た新しいカスタムフォントを合成し、低解像度のコピーを使用してページの背景を保持します。
  5. 必要に応じてその他の設定を行い、「スキャン」をクリックします。

  6. 他のページをスキャンするかどうかを確認するメッセージが表示されたら、「他のページをスキャン」、「裏面をスキャン」、または「スキャンの完了」のいずれかを選択し、「OK」をクリックします。

Acrobat XI の場合

  1. Acrobat を起動します。

  2. 次のいずれかの操作を行います。

    • すぐにスキャナーで読み込む場合
      ファイル/作成/スキャナーから PDF/カスタムスキャン を選択します。
    • プリセット設定を作成し、後からスキャナーで読み込む場合
      ファイル/作成/スキャナーから PDF/プリセットを設定 を選択します。
  3. カスタムスキャンダイアログボックスまたはプリセットを設定ダイアログボックスの「文書設定」セクションで、「検索可能にする(OCR 実行)」にチェックをいれます。

    649_01
  4. つづけて、「オプション」ボタンをクリックします。

    649_02
  5. 「OCR の言語」および「PDF の出力形式」を指定して、「OK」をクリックします。

    PDF の出力形式は、下記から選択します。

    • 検索可能な画像
      テキストの検索と選択を可能にします。このオプションを選択すると元の画像が保持され、必要に応じてゆがみが補正され、その上に非表示のテキストレイヤーが配置されます。
    • ClearScan
      元のフォントに似た新しい Type 3 フォントを合成し、低解像度のコピーを使用してページの背景を保持します。
    649_03
  6. 「スキャン」または「保存」ボタンをクリックしてダイアログボックスを閉じ、スキャンを開始します。

B-2. 取り込んだ後に OCR を適用

OCR を適用せずにスキャンした文書に、後から「テキスト認識ツール」で OCR を適用し、テキストを検索、修正、コピーできるようにすることができます。

注意:

注意 : OCR を PDF に適用するには、元のスキャナ解像度が 72 dpi 以上に設定されている必要があります。300 dpi でスキャンすると、変換に最適なテキストが生成されます。150 dpi では OCR の精度がわずかに低くなります。

  1. Acrobat を起動し、OCR を適用する PDF ファイルを開きます。

  2. 以下の操作を行います。

    • Acrobat DC
      ツール/スキャン補正/テキスト認識/このファイル内 を選択します。
    • Acrobat XI
      ツールパネルから、テキスト認識/このファイル内 を選択します。
    Acrobat DC
    Acrobat XI
  3. 第 2 ツールバー(Acrobat DC)/テキスト認識ダイアログボックス(Acrobat XI)で、OCR を適用するページを指定します。

    Acrobat DC
    649_05
    Acrobat XI

  4. 続けて、「設定」(Acrobat DC)/「編集」ボタン(Acrobat XI)をクリックして、テキスト認識  ダイアログボックスで以下の設定を行い、「OK」をクリックします。

    文書の言語(Acrobat DC) / OCR の言語(Acrobat XI)
    文字を認識するために使用する OCR エンジンの言語を指定します。

    出力(Acrobat DC) / PDF の出力形式(Acrobat XI) :
    作成する PDF の種類を指定します。どのオプションも、72 ppi 以上(推奨)の入力解像度が必要です。どの形式でも、テキスト画像に対して OCR およびフォントとページ認識が適用され、通常のテキストに変換されます。

    • 検索可能な画像
      テキストの検索と選択を可能にします。このオプションを選択すると、元の画像が保持され、必要に応じてゆがみが補正され、その上に非表示のテキストレイヤーが配置されます。同じダイアログボックスの「画像のダウンサンプリング」の選択項目では、画像をダウンサンプルするかどうかや、ダウンサンプリングのレベルを指定します。
    • 検索可能な画像(非圧縮)
      テキストの検索と選択を可能にします。このオプションを選択すると、元の画像が保持され、その上に非表示のテキストレイヤーが配置されます。元の画像を忠実に再現する必要がある場合は、このオプションを選択することをお勧めします。
    • 編集可能なテキストと画像(Acrobat DC)
      元のフォントに似た新しいカスタムフォントを合成し、低解像度のコピーを使用してページの背景を保持します。
    • ClearScan(Acrobat XI)
      元のフォントに似た新しい Type 3 フォントを合成し、低解像度のコピーを使用してページの背景を保持します。

    ダウンサンプル : OCR が完了した後に、カラー、グレースケール、白黒の各画像のピクセル数を減らします。適用するダウンサンプリングのレベルを選択します。オプションの数値を高くすると、ダウンサンプリングがあまり適用されず、高い解像度の PDF が作成されます。

    Acrobat DC
    649_06
    Acrobat XI

  5. 「OK」をクリックして、OCR を適用します。

アドビコミュニティフォーラムをご利用下さい

この文章はお役に立てましたでしょうか?さらに情報をお探しになる場合には、アドビスタッフがお届けしている解決事例やメンバー同士での活発な意見交換をチェックできるコミュニティフォーラムをご利用下さい。

本作品は Creative Commons Attribution-Noncommercial-Share Alike 3.0 Unported License によってライセンス許可を受けています。  Twitter™ および Facebook の投稿には、Creative Commons の規約内容は適用されません。

リーガルノーティス   |   プライバシーポリシー