スキャナ取込みの際に文字をテキストとして認識させる方法（Acrobat XI/Acrobat）

検索

最終更新日 : 2024年9月14日 | 次にも適用 : Adobe Acrobat XI

Adobe Acrobat

Open app

この文書では、スキャナから読み込んだデータを Adobe Acrobat で検索や編集が可能なテキストとして認識させる方法について説明します。

A. OCR 機能とは

「Optical Character Reader」の略で、スキャナから印刷物の内容を取り込む時に、通常は画像として取り込まれる文字を、編集や検索対象となるテキストとして読み取ることができる機能のことです。

OCR 機能を使用しない通常の読み込みでは、文字はグラフィックとして取り込まれ、テキストの編集を行うことはできません。

B. スキャナしたデータをテキストとして認識させる方法

Acrobat では、スキャナから取り込む際に OCR （光学式文字認識）を適用して、検索や編集が可能なテキストとして認識させることができます。取り込んだ後に OCR を適用することも可能です。

スキャナで紙の文書を取り込む際に、OCR を適用して検索可能な PDF ファイルを作成するか、画像のみの PDF ファイルを作成するかを指定できます。画像のみの PDF ファイルを作成した場合、後からテキスト認識ツールを使用して、OCR を実行することもできます。

B-1. 取り込む際に OCR を適用

Acrobat を起動します。
次のいずれかの操作を行います。
- すぐにスキャナーで読み込む場合
  ファイル／作成／スキャナーから PDF／カスタムスキャンを選択します。
- プリセット設定を作成し、後からスキャナーで読み込む場合
  ファイル／作成／スキャナーから PDF／プリセットを設定を選択します。
カスタムスキャンダイアログボックスまたはプリセットを設定ダイアログボックスの「文書設定」セクションで、「検索可能にする（OCR 実行）」にチェックをいれます。
つづけて、「オプション」ボタンをクリックします。
「OCR の言語」および「PDF の出力形式」を指定して、「OK」をクリックします。

PDF の出力形式は、下記から選択します。
- 検索可能な画像 ：
  テキストの検索と選択を可能にします。このオプションを選択すると元の画像が保持され、必要に応じてゆがみが補正され、その上に非表示のテキストレイヤーが配置されます。
- ClearScan：
  元のフォントに似た新しい Type 3 フォントを合成し、低解像度のコピーを使用してページの背景を保持します。
「スキャン」または「保存」ボタンをクリックしてダイアログボックスを閉じ、スキャンを開始します。

B-2. 取り込んだ後に OCR を適用

OCR を適用せずにスキャンした文書に、後から「テキスト認識ツール」で OCR を適用し、テキストを検索、修正、コピーできるようにすることができます。

メモ

注意： OCR を PDF に適用するには、元のスキャナ解像度が 72 dpi 以上に設定されている必要があります。300 dpi でスキャンすると、変換に最適なテキストが生成されます。150 dpi では OCR の精度がわずかに低くなります。

Acrobat を起動し、OCR を適用する PDF ファイルを開きます。
以下の操作を行います。
- Acrobat
  ツール／スキャン補正／テキスト認識／このファイル内を選択します。
- Acrobat XI
  ツールパネルから、テキスト認識／このファイル内を選択します。
第 2 ツールバー（Acrobat）/テキスト認識ダイアログボックス（Acrobat XI）で、OCR を適用するページを指定します。

Acrobat XI
続けて、「設定」（Acrobat）/「編集」ボタン（Acrobat XI）をクリックして、テキスト認識ダイアログボックスで以下の設定を行い、「OK」をクリックします。

文書の言語（Acrobat） / OCR の言語（Acrobat XI）：
文字を認識するために使用する OCR エンジンの言語を指定します。

出力（Acrobat） / PDF の出力形式（Acrobat XI）：
作成する PDF の種類を指定します。どのオプションも、72 ppi 以上（推奨）の入力解像度が必要です。どの形式でも、テキスト画像に対して OCR およびフォントとページ認識が適用され、通常のテキストに変換されます。
- 検索可能な画像
  テキストの検索と選択を可能にします。このオプションを選択すると、元の画像が保持され、必要に応じてゆがみが補正され、その上に非表示のテキストレイヤーが配置されます。同じダイアログボックスの「画像のダウンサンプリング」の選択項目では、画像をダウンサンプルするかどうかや、ダウンサンプリングのレベルを指定します。
- 検索可能な画像（非圧縮）
  テキストの検索と選択を可能にします。このオプションを選択すると、元の画像が保持され、その上に非表示のテキストレイヤーが配置されます。元の画像を忠実に再現する必要がある場合は、このオプションを選択することをお勧めします。
- 編集可能なテキストと画像（Acrobat）
  元のフォントに似た新しいカスタムフォントを合成し、低解像度のコピーを使用してページの背景を保持します。
- ClearScan（Acrobat XI）
  元のフォントに似た新しい Type 3 フォントを合成し、低解像度のコピーを使用してページの背景を保持します。
ダウンサンプル ： OCR が完了した後に、カラー、グレースケール、白黒の各画像のピクセル数を減らします。適用するダウンサンプリングのレベルを選択します。オプションの数値を高くすると、ダウンサンプリングがあまり適用されず、高い解像度の PDF が作成されます。
Acrobat XI
「OK」をクリックして、OCR を適用します。