将纸质文档扫描为 PDF

可以使用扫描仪和 Acrobat 直接从纸质文档创建 PDF 文件。在 Windows 上,Acrobat 支持 TWAIN 扫描仪驱动程序和 Windows 图像采集 (WIA) 驱动程序。在 Mac OS 中,Acrobat 支持 TWAIN 和图像捕捉 (ICA)。

在 Windows 中,您可以使用“自动检测颜色模式”,让 Acrobat 确定纸质文档的内容类型,或者根据您的判断使用其它预设(“黑白文档”、“灰度文档”、“彩色图像”和“彩色文档”)。您可以配置扫描预设,或使用“自定义扫描”选项通过选择的设置进行扫描。

注意:

只有支持“隐藏扫描仪的本机界面”模式的扫描仪驱动程序才能使用预设扫描。扫描预设在 Mac OS 上不可用。

在 Windows 中,如果您的扫描仪安装了 WIA 驱动程序,则可以使用扫描仪上的“扫描”按钮创建 PDF。按“扫描”按钮,然后在 Windows 中,从已注册应用程序的列表中选择 Adobe Acrobat。然后在 Acrobat 的“扫描”对话框中,选择扫描仪及文档预设或“自定义扫描”。

使用“自动检测颜色模式”将纸质文档扫描为 PDF (Windows)

  1. 选择“文件”>“创建”>“从扫描仪创建 PDF”>“自动检测颜色模式”。

  2. 如果系统提示扫描更多页面,请选择“扫描更多页面”、“扫描背面”或“扫描已完成”,然后单击“确定”。

使用预设将纸质文档扫描为 PDF (Windows)

  1. 选择“文件”>“创建”>“从扫描仪创建 PDF”> [文档预设]

  2. 如果系统提示扫描更多页面,请选择“扫描更多页面”、“扫描背面”或“扫描已完成”,然后单击“确定”。

不使用预设将纸质文档扫描为 PDF

  1. 在 Acrobat 中,执行以下任一操作:
    • (Windows) 选择“文件”>“创建”>“从扫描仪创建 PDF”>“自定义扫描”。
    • (Mac OS) 选择“文件”>“创建”>“从扫描仪创建 PDF”。
  2. 根据需要在“扫描”对话框中选择扫描选项,然后单击“扫描”。

    注意:

    如果您指定要使用扫描仪本机的用户界面,而不使用 Acrobat 用户界面,则会出现其它窗口或对话框。请查阅扫描仪文档以获取关于可用选项的信息。在 Mac OS 中,将始终显示扫描仪用户界面。

  3. 如果系统提示扫描更多页面,请选择“扫描更多页面”、“扫描背面”或“扫描已完成”,然后单击“确定”。

优化扫描的 PDF

  1. 打开从扫描文档创建的 PDF。
  2. 选择“工具”>“文档处理”>“优化扫描的 PDF”。

  3. 在“优化扫描的 PDF”对话框中选择选项,然后单击“确定”。

配置扫描预设 (Windows)

  1. 选择“文件”>“创建”>“从扫描仪创建 PDF”>“配置预设”。

  2. 在“配置预设”对话框中,选择一个预设:“自动检测颜色模式”、“黑白文档”、“灰度文档”、“彩色文档”或“彩色图像”。

  3. 根据需要调整设置。
  4. 单击“保存”以保存预设,然后单击“关闭”。

扫描选项

扫描仪

选择一个安装的扫描仪。必须在您的计算机上安装制造商的扫描软件。单击“选项”按钮指定扫描仪选项(仅在 Windows 中)。

预设

选择要修改的预设

指定单面或双面扫描。如果选择了“双面”,但扫描仪的设置仅针对单面,则扫描仪设置将覆盖 Acrobat 设置。

注意:

您可扫描纸张的双面,即使扫描仪本身不支持双面扫描。如果选择了“双面”,扫描完第一面后将显示该对话框。随后您可以将纸盒中的原始纸质文档翻面,然后在该对话框中选择“扫描背面”(“放入图纸背面”)选项。此方法将生成所有页面以正确顺序排列的 PDF。

色彩模式(仅 Windows)

选择您的扫描仪所支持的基本颜色模式(“自动检测”、“彩色”、“黑白”或“灰度”)。如果“扫描仪选项”设置为使用 Acrobat 扫描对话框,而不是扫描仪应用程序的扫描对话框,将启用此选项。

分辨率(仅 Windows)

选择您的扫描仪支持的分辨率。如果“扫描仪选项”设置为使用 Acrobat 扫描对话框,而不是扫描仪应用程序的扫描对话框,将启用此选项。

注意:

如果选择了扫描仪不支持的“颜色模式”或“分辨率”选项,则会显示一条消息,并打开扫描仪应用程序窗口。请在扫描仪应用程序窗口中选择其它选项。

纸张大小(仅 Windows)

选择纸张大小,或者指定自定义宽度高度

提示扫描更多页面

选择此选项后,每次扫描会话结束后都会显示一个对话框,提示您扫描更多页面。

新 PDF 文档

创建 PDF。此选项在“配置预设”对话框中不可用。

多个文件

从多个纸质文档创建多个文件。单击“更多选项”,然后指定是否创建包含这些文件的 PDF 包、每个文件的页数和文件名前缀。这些选项在“配置预设”对话框中不可用。

追加到现有文件或包

将转换的扫描添加到现有的 PDF 或 PDF 包。此选项在“配置预设”对话框中不可用。

优化扫描的 PDF

选择该选项对 PDF 运行优化过程。 该选项用于压缩和筛选扫描 PDF 中的图像。

小文件/高质量

请拖动滑动条来设置文件大小和质量的平衡点。单击“选项”可使用特定的文件压缩和过滤设置自定义优化。

使内容可搜索(运行 OCR)

选择此选项可以将 PDF 中的文本图像转换为可搜索和可选择的文本。该选项会对文本图像应用光学字符识别 (OCR) 以及字体和页面识别。单击“选项”可在“识别文本 - 设置”对话框中指定设置。请参阅识别扫描文档中的文本

使其符合 PDF/A 规范

选择此选项使 PDF 符合 PDF/A-1b 的 ISO 标准。选中此选项后,“PDF 输出样式”选项的“识别文本 - 设置”对话框中,仅“可搜索图像”可用。

添加元数据

如果选中此选项,扫描之后将显示“文档属性”对话框。在“文档属性”对话框中,您可以向 PDF 文件中添加元数据或扫描文档的相关信息。如果要创建的是多个文件,则可输入所有文件的通用元数据。

“扫描仪选项”对话框

数据转换方法

本机模式”将以扫描仪的默认模式进行传输。以高于 600 点/英寸 (dpi)的分辨率扫描时将自动选择“内存模式”。

用户界面

隐藏扫描仪的本机界面”选项将忽略扫描仪生产商提供的窗口和对话框,而直接使用“自定义扫描”设置中指定的设置来进行扫描。

反色黑白图像

例如,本选项从黑白负片图像创建正片图像。

“优化扫描的 PDF”对话框

优化扫描的 PDF”对话框所控制的图像设置用于设置如何针对 PDF 筛选和压缩扫描的图像。默认设置适用于各种文档页面,但是您可能要自定义设置以获得更高质量的图像、较小的文件空间或扫描问题。

应用自适应压缩

将每个页面分为黑白、灰度和彩色区域,然后选择一种在高度压缩每种内容时可保留外观的表现形式。建议的扫描分辨率为 300 dpi(灰度和 RGB 输入),或 600 dpi(黑白输入)。

彩色/灰度设置

当扫描彩色或灰度页面时,选择以下任一选项:

JPEG2000

为彩色图像内容应用 JPEG2000 压缩。(创建 PDF/A 文件时,不建议使用此设置,而建议使用 JPEG。)

ZIP

为彩色图像内容应用 ZIP 压缩。

JPEG

为彩色图像内容应用 JPEG 压缩。

注意:

扫描仪将使用选择的“彩色/灰度”选项或选择的“单色”选项。使用哪个选项取决于您在 Acrobat 的“扫描”对话框或扫描仪的 TWAIN 界面中选择的设置,您在 Acrobat 的“扫描”对话框中单击“扫描”后即可打开相应选项。(默认情况下,扫描仪应用程序对话框不会打开。)

单色

当扫描黑白或单色图像时,选择以下任一选项:

JBIG2(无损)和 JBIG2(有损)

应用 JBIG2 压缩方式于黑白输入页面。最高质量水平使用无损压缩方式;在最低设置下,文本会高度压缩。文本页面通常比 CCITT 组 4 压缩的页面小 60%,但处理较慢。与 Acrobat 5.0 (PDF 1.4) 或更高版本兼容。

注意:

要与 Acrobat 4.0 兼容,请使用 JBIG2 以外的其它压缩方法。

CCITT 组 4

对黑白输入页面图像应用 CCITT 组 4 压缩。这种快速的无损压缩方法与 Acrobat 3.0 (PDF 1.2) 和更高版本兼容。

小文件/高质量

设置文件大小和质量之间的平衡点。

抗扭斜

旋转与扫描仪盖板的边缘不垂直的页面,使 PDF 页面垂直对齐。选择“”或“”。

背景去除

将灰度和彩色输入(不是黑白输入)的近似白色的区域加白。

注意:

为了取得最好的效果,校正您扫描仪的对比度和亮度设置以便于扫描的黑白页面有深灰色或者黑色文本和白色背景。然后,使用“”或者“”可以生成较佳的效果。如果扫描白纸或者新闻纸,使用“”或者“”来使页面清洁。

去网

去除半色调网点结构,它会降低 JPEG 压缩率,导致龟纹并且使文本难以识别。适用于 200 至 400 dpi 灰度或 RGB 输入;或者,对于“自适应压缩”,适用于 400 至 600 dpi 的黑白输入。”设置(建议)适用于 300 dpi 或更高灰度以及 RGB 输入的滤镜。当扫描不包含图片或者填充区域的页面时,或者扫描时使用的分辨率高于有效分辨率时,请选择“”。

文本锐化

锐化扫描的 PDF 文件中的文本。较低的默认值适合于大多数文档。如果打印的文档质量不高且文本不清晰,可以提高默认值设置。

扫描提示

  • Acrobat 扫描接受 10 dpi 至 3000 dpi 之间的图像。如果您在“PDF 输出样式”中选择了“可搜索的图像”或“ClearScan”,则输入分辨率必须为 72 dpi 或更高。此外,高于 600 dpi 的输入分辨率会缩减像素采样至 600 dpi 或更低。

  • 要对扫描的图像应用无损压缩,请在“优化扫描的 PDF”对话框的“优化选项”下选择以下选项之一:“CCITT 组 4”(适用于单色图像)或“无损”(适用于彩色或灰度图像)。如果将此图像附加到 PDF 文档,并使用“保存”选项保存此文件,则扫描的图像将保持未压缩状态。如果您使用“另存为”保存该 PDF,则扫描的图像会被压缩。

  • 对于大多数页面,使用 300 dpi 分辨率进行黑白扫描即可生成最适合转换的文本。如果使用 150 dpi,OCR 精度略低,会产生较多的字体识别错误;如果使用 400 dpi 和更高的分辨率,处理速度会变慢,而且压缩的页面会较大。如果页面包含多个无法识别的词语或小文本(9 点或更小),请尝试以更高的分辨率进行扫描。尽可能采用黑白扫描。

  • 如果停用了“使用 OCR 识别文本”,则可以使用 10 - 3000 dpi 范围内的所有分辨率;但推荐使用 72 dpi 和更高的分辨率。对于“自适应压缩”,建议灰度或 RGB 输入采用 300 dpi,黑白输入采用 600 dpi。

  • 以 24 位颜色、300 dpi 和 8-1/2 x 11 英寸(21.59 x 27.94 厘米)扫描的页面将生成大图像 (25 MB)(压缩前)。您的系统可能需要 50 MB 虚拟内容或更多来扫描图像。在 600 dpi 时,扫描和处理的速度通常是 300 dpi 时的四分之一。

  • 避免仿色或半色调扫描设置。这些设置可以改善照片的外观,但会使文本难以识别。

  • 对于在彩色纸张上打印的文本,请尝试提高亮度和对比度约 10%。如果您的扫描仪具有色彩筛选功能,请考虑使用可减弱背景颜色的筛选器或灯光。或者,如果文本并未支离破碎,请尝试调整扫描仪对比度和亮度,使扫描变清晰。

  • 如果您的扫描仪有手动亮度控制,调整它以便于字符清晰和更好的成形。如果字符连结在一起,请使用较高的(较亮的)设置。如果字符被分隔,请使用较低的(较暗的)设置。

识别扫描文档中的文本

您可使用 Acrobat 识别以前已转换为 PDF 扫描文档的文本。光学字符识别(OCR)软件允许您搜索、更正和复制扫描的 PDF 中的文本。要将 OCR 应用于 PDF,必须已经将原始扫描仪分辨率设置为 72 dpi 或更高。

注意:

以 300 dpi 扫描会生成最适合转换的文本。以 150 dpi 扫描时,OCR 精度会略有降低。

识别单个文档中的文本

  1. 打开扫描的 PDF。
  2. 选择“工具”>“文本识别”>“在本文件中”。

  3. 在“识别文本”对话框中,选择“页面”下的选项。

  4. 视情况单击“编辑”打开“识别文本 - 一般设置”对话框,然后根据需要指定选项。

识别多个文档中的文本

  1. 在 Acrobat 中,选择“工具”>“文本识别”>“在多个文件中”。

  2. 在“识别文本”对话框中,单击“添加文件”,然后选择“添加文件”、“添加文件夹”或“添加打开的文件”。然后选择相应的文件或文件夹。
  3. 在“输出选项”对话框中,指定输出文件的目标文件夹以及文件名首选项。
  4. 在“识别文本 - 一般设置”对话框中,指定选项,然后单击“确定”。

“识别文本 - 一般设置”对话框

主要 OCR 语言

为 OCR 引擎指定用于识别字符的语言。

PDF 输出样式

确定要生成的 PDF 的类型。所有选项都需要 72 dpi 或更高(建议)的输入分辨率。所有的格式应用 OCR 和字体和页面识别于文本图像并将其转换为正常文本。

可搜索的图像

确保文本是可搜索和可选择的。本选项保持原始图像,根据需要抗扭斜和将不可见文本层放在其上方。在同一对话框中选择“对图像缩减像素采样”可确定是否对图像缩减像素采样以及缩减的程度。

可搜索的图像(精确)

确保文本是可搜索和可选择的。本选项保持原始图像,根据需要抗扭斜和将不可见文本层放在其上方。建议用于要求原始图像最大保真度的情况。

ClearScan

合成与原始字体非常接近的新的 Type 3 字体,并使用低分辨率副本保留页面背景。

缩减像素采样至

在 OCR 完成后减少彩色、灰度和单色图像的像素数。选择要应用的缩减像素采样的程度。更高的选项使用较少的缩减像素采样,产生更高分辨率的 PDF。

更正 PDF 中的 OCR 文本

在扫描输出中运行 OCR 时,Acrobat 会对文本位图进行分析,并使用单词和字符替代这些位图区域。如果不确定最佳替代,Acrobat 会将其标记为可疑元素。可疑元素在 PDF 中显示为单词的原始位图,但是文本包含在单词位图后的不可见图层中。这使得单词可以搜索,即使它显示为位图。

注意:如果您试图在未应用 OCR 的扫描 PDF 中选择文本,或者试图在图像文件中执行“朗读”操作,Acrobat 会询问您是否希望运行 OCR。如果单击“确定”,将会打开“文本识别”对话框,您可以在其中选择相关选项,这些选项在上一个主题中有详细说明。

  1. 执行以下任一操作:

    • 选择“工具”>“文本识别”>“查找所有可疑元素”。页面中所有可疑单词都会框出。单击任一可疑单词,以将该可疑文本显示在“查找元素”对话框中。
    • 选择“工具”>“文本识别”>“查找第一个可疑元素”。

    注意:如果更正所有可疑单词之前已关闭“查找元素”窗口,可以选择“工具”>“文本识别”>“查找第一个可疑元素”,或者使用“编辑文档文本”工具单击任何可疑单词,以便返回该过程。

  2. 在“查找”选项中,选择“OCR 可疑元素”。

  3. 将“可疑元素”文本框中的单词与扫描文档中的实际单词进行比较。要更正 OCR 可疑元素,请单击文档中的高亮对象并键入新文本。如果可疑元素被错误地识别成文本,请单击“非文本”按钮。

  4. 审阅其它可疑单词并进行更正,然后关闭“查找元素”对话框。

本产品经 Creative Commons Attribution-Noncommercial-Share Alike 3.0 Unported License 许可  Twitter™ 与 Facebook 中的内容不在 Creative Commons 的条款约束之下。

法律声明   |   在线隐私策略