准备事项
我们将推出全新、更直观的产品体验。如果此处显示的屏幕与您的产品界面不匹配,请选择“帮助”以了解您的当前体验。
将纸质文档扫描为 PDF,然后使用 Acrobat 将其转换为包含可选文本的智能、可搜索 PDF 文件。
准备事项
我们将推出全新、更直观的产品体验。如果此处显示的屏幕与您的产品界面不匹配,请选择“帮助”以了解您的当前体验。
可以使用扫描仪和 Acrobat,直接从纸质文档创建 PDF 文件。在 Windows 上,Acrobat 支持 TWAIN 扫描仪驱动程序和 Windows 图像采集 (WIA) 驱动程序。在 Mac OS 中,Acrobat 支持 TWAIN 和图像捕捉 (ICA)。
在 Windows 中,您可以使用“自动检测颜色模式”,让 Acrobat 确定纸质文档的内容类型,或者根据您的判断使用其它预设(“黑白文档”、“灰度文档”、“彩色图像”和“彩色文档”)。您可以配置扫描预设,或使用“自定义扫描”选项通过选择的设置进行扫描。
只有支持“隐藏扫描仪的本机界面”模式的扫描仪驱动程序才能使用预设扫描。扫描预设在 Mac OS 上不可用。
在 Windows 中,如果您的扫描仪安装了 WIA 驱动程序,则可以使用扫描按钮创建 PDF。按扫描按钮,然后在 Windows 中,从已注册的应用程序列表中选择 Adobe Acrobat。接着,在 Acrobat 扫描界面中,选择扫描仪及文档预设或自定义扫描。
要使用 Acrobat 将纸质文档扫描为 PDF,请转到所有工具 > 创建 PDF。此时会显示从任意格式创建 PDF 界面。选择扫描仪以查看可用的选项。
在 Windows 上,将显示以下内容:
在 Mac 上:
选择所有工具 > 创建 PDF > 扫描仪 > 自动检测颜色模式。
如果您要将所扫描的文档追加到现有的文件,请执行以下操作:
如果要将多个文件扫描为一个 PDF,请选择设置 图标。此时会显示“自定义扫描”界面。选择提示扫描更多页面。
选择扫描。
如果系统提示扫描更多页面,请选择扫描更多页面、扫描背面或扫描已完成,然后选择确定。
选择工具 > 创建 PDF > 扫描仪 > [文档预设]。
如果您要将所扫描的文档追加到现有的文件,请执行以下操作:
如果要将多个文件扫描为一个 PDF,请选择设置 图标。此时会显示“自定义扫描”界面。选择提示扫描更多页面。
选择扫描。
如果系统提示扫描更多页面,请选择扫描更多页面、扫描背面或扫描已完成,然后选择确定。
选择查看所有工具 > 创建 PDF > 扫描仪 > 默认设置或我的自定义设置 。
如果您要将所扫描的文档追加到现有的文件,请执行以下操作:
如果您要更改设置,请选择设置 图标。此时会显示“自定义扫描”界面。根据需要选择扫描选项。
如果要将多个文件扫描为一个 PDF,请选择提示扫描更多页面。
如果您指定要使用显示扫描仪的用户界面,而不使用 Acrobat 用户界面,则会出现其他窗口或对话框。请查阅扫描仪文档以获取关于可用选项的信息。在 Mac OS 中,将始终显示扫描仪用户界面。
选择扫描。
如果系统提示扫描更多页面,请选择扫描更多页面、扫描背面或扫描已完成,然后选择确定。
选择所有工具 > 扫描和 OCR > 增强扫描文件。
选择辅助工具栏中的选项 - 选择设置 图标,并在增强扫描的 PDF 对话框中选择适当的选项,然后选择确定。
有关该对话框中显示选项的更多信息,请参阅“增强扫描的 PDF”对话框。
选择所有工具 > 创建 PDF > 扫描仪。
选择预定义的扫描设置:自动检测颜色模式、黑白文档、彩色文档、灰度文档或彩色照片。
选择预设旁边的设置 图标。根据您所做的选择,系统会显示“自定义扫描”或“为下列项目配置预定义设置”界面。
如果要将多个文件扫描为一个 PDF,请选择提示扫描更多页面。
选择保存设置以保存预设。
选择扫描仪后,您可以根据需要选择或调整其各种扫描选项。
扫描仪
选择一个安装的扫描仪。必须在您的计算机上安装制造商的扫描软件。单击“选项”按钮指定扫描仪选项(仅在 Windows 中)。
显示扫描仪的用户界面
仅当您希望使用由扫描仪制造商提供的窗口和对话框来查看设置时,才选择此选项。如果未选择此选项,则会直接使用“自定义扫描”或“为下列项目配置预定义设置”界面中指定的设置开始扫描。
页面
指定单面或双面扫描。如果选择了“双面”,但扫描仪的设置仅针对单面,则扫描仪设置将覆盖 Acrobat 设置。
您可扫描纸张的双面,即使扫描仪本身不支持双面扫描。如果选择了“双面”,扫描完第一面后将显示该对话框。随后您可以将纸盒中的原始纸质文档翻面,然后在该对话框中选择“扫描背面”(“放入图纸背面”)选项。此方法将生成所有页面以正确顺序排列的 PDF。
色彩模式(仅 Windows)
选择您的扫描仪所支持的基本颜色模式(“自动检测”、“彩色”、“黑白”或“灰度”)。如果“扫描仪选项”设置为使用 Acrobat 扫描对话框,而不是扫描仪应用程序的扫描对话框,将启用此选项。
分辨率(仅 Windows)
选择您的扫描仪支持的分辨率。如果“扫描仪选项”设置为使用 Acrobat 扫描对话框,而不是扫描仪应用程序的扫描对话框,将启用此选项。
如果选择了扫描仪不支持的“颜色模式”或“分辨率”选项,则会显示一条消息,并打开扫描仪应用程序窗口。请在扫描仪应用程序窗口中选择其它选项。
纸张大小(仅 Windows)
选择纸张大小,或者指定自定义宽度和高度。
提示扫描更多页面
选择此选项后,每次扫描会话结束后都会显示一个对话框,提示您扫描更多页面。
质量 > 优化图像
选择该选项对 PDF 运行优化过程。该选项用于压缩和筛选扫描 PDF 中的图像。选择设置 图标可使用特定的文件压缩和筛选设置自定义优化内容。
质量 > 优化图像 > 小尺寸/高质量
请拖动滑动条来设置文件大小和质量的平衡点。
输出 > 追加到现有文件
将转换后的扫描文件添加到现有 PDF。从下拉列表中选择打开的文件,或浏览并选择 PDF 文件。
输出 > 新建 PDF
创建 PDF。
输出 > 保存多个文件
从多个纸质文档创建多个文件。选择设置 图标,然后指定是否创建包含这些文件的 PDF 包、是否为每个文件创建页码以及是否创建文件名前缀。
识别文本 (OCR)
选择此选项可以将 PDF 中的文本图像转换为可搜索和可选择的文本。该选项会对文本图像应用光学字符识别 (OCR) 以及字体和页面识别。选择设置 图标,然后在识别文本 - 设置对话框中指定设置。请参阅识别扫描文档中的文本。
添加元数据
如果选中此选项,扫描之后将显示“文档属性”对话框。在“文档属性”对话框中,您可以向 PDF 文件中添加元数据或扫描文档的相关信息。如果要创建的是多个文件,可以为所有文件输入通用元数据。
使其符合 PDF/A 规范
选择此选项使 PDF 符合 PDF/A-1b 的 ISO 标准。
“增强扫描的 PDF”对话框所控制的图像设置用于确定如何针对 PDF 进行扫描图像的筛选和压缩。默认设置适用于各种文档页面,但是您可能要自定义设置以获得更高质量的图像、较小的文件空间或扫描问题。
应用自适应压缩
将每个页面分为黑白、灰度和彩色区域,然后选择一种在高度压缩每种内容时可保留外观的表现形式。建议的扫描分辨率为 300 dpi(灰度和 RGB 输入),或 600 dpi(黑白输入)。
彩色/灰度扫描
当扫描彩色或灰度页面时,选择以下任一选项:
JPEG2000
为彩色图像内容应用 JPEG2000 压缩。(创建 PDF/A 文件时,不建议使用此设置,而建议使用 JPEG。)
ZIP
为彩色图像内容应用 ZIP 压缩。
JPEG
为彩色图像内容应用 JPEG 压缩。
扫描仪将使用选择的“彩色/灰度”选项或选择的“单色”选项。使用哪个选项取决于您在 Acrobat 的“扫描”对话框或扫描仪的 TWAIN 界面中选择的设置,您在 Acrobat 的“扫描”对话框中单击“扫描”后即可打开相应选项。(默认情况下,扫描仪应用程序对话框不会打开。)
单色扫描
当扫描黑白或单色图像时,选择以下任一选项:
JBIG2(无损)和 JBIG2(有损)
应用 JBIG2 压缩方式于黑白输入页面。最高质量水平使用无损压缩方式;在最低设置下,文本会高度压缩。文本页面通常比 CCITT 组 4 压缩的页面小 60%,但处理较慢。与 Acrobat 5.0 (PDF 1.4) 或更高版本兼容。
要与 Acrobat 4.0 兼容,请使用 JBIG2 以外的其它压缩方法。
CCITT 组 4
对黑白输入页面图像应用 CCITT 组 4 压缩。这种快速的无损压缩方法与 Acrobat 3.0 (PDF 1.2) 和更高版本兼容。
小文件/高质量
设置文件大小和质量之间的平衡点。
抗扭斜
旋转与扫描仪盖板的边缘不垂直的页面,使 PDF 页面垂直对齐。选择“开”或“关”。
背景去除
将灰度和彩色输入(不是黑白输入)的近似白色的区域加白。
为了取得最好的效果,校正您扫描仪的对比度和亮度设置以便于扫描的黑白页面有深灰色或者黑色文本和白色背景。然后,使用“关”或者“低”可以生成较佳的效果。如果扫描白纸或者新闻纸,使用“中”或者“高”来使页面清洁。
去网
去除半色调网点结构,它会降低 JPEG 压缩率,导致龟纹并且使文本难以识别。适用于 200 至 400 dpi 灰度或 RGB 输入;或者,对于“自适应压缩”,适用于 400 至 600 dpi 的黑白输入。“开”设置(建议)适用于 300 dpi 或更高灰度以及 RGB 输入的滤镜。当扫描不包含图片或者填充区域的页面时,或者扫描时使用的分辨率高于有效分辨率时,请选择“关”。
文本锐化
锐化扫描的 PDF 文件中的文本。默认值较低且适合大多数文档。如果打印的文档质量不高且文本不清晰,可以提高默认值设置。
文档语言
默认情况下,从默认的区域设置中选取 OCR 语言。要更改语言,请单击“编辑”,然后选择其它语言。
输出
可搜索的图像或可编辑的文本和图像。
Acrobat 扫描接受 10 dpi 至 3000 dpi 之间的图像。如果您在 PDF 输出样式中选择了可搜索的图像或 ClearScan,则输入分辨率必须为 72 dpi 或更高。此外,高于 600 dpi 的输入分辨率会缩减像素采样至 600 dpi 或更低。
无损压缩仅可应用于单色图像。要对扫描的图像应用无损压缩,请在“优化扫描的 PDF”对话框的“优化选项”下,选择以下适用于单色图像的选项之一:“CCITT 组 4”或“JBIG2(无损)”。如果将此图像附加到 PDF 文档,并使用“保存”选项保存此文件,则扫描的图像将保持未压缩状态。如果使用“另存为”选项保存 PDF,则可能会压缩扫描的图像。
对于大多数页面,使用 300 dpi 分辨率进行黑白扫描即可生成最适合转换的文本。如果使用 150 dpi,OCR 精度略低,会产生较多的字体识别错误;如果使用 400 dpi 和更高的分辨率,处理速度会变慢,而且压缩的页面会较大。如果页面包含多个无法识别的词语或小文本(9 点或更小),请尝试以更高的分辨率进行扫描。尽可能采用黑白扫描。
如果禁用使用 OCR 识别文本,则可以使用 10 - 3000 dpi 范围内的所有分辨率;但推荐使用 72 dpi 和更高的分辨率。对于自适应压缩,建议灰度或 RGB 输入采用 300 dpi,黑白输入采用 600 dpi。
以 24 位颜色、300 dpi 和 8-1/2 x 11 英寸(21.59 x 27.94 厘米)扫描的页面将生成大图像 (25 MB)(压缩前)。您的系统可能需要 50 MB 虚拟内容或更多来扫描图像。在 600 dpi 时,扫描和处理的速度通常约为 300 dpi 时的四分之一。
避免仿色或半色调扫描设置。这些设置可以改善照片的外观,但会使文本变得难以识别。
对于在彩色纸张上打印的文本,请尝试提高亮度和对比度约 10%。如果您的扫描仪具有色彩筛选功能,请考虑使用可减弱背景颜色的筛选器或灯光。或者,如果文本并未支离破碎,请尝试调整扫描仪对比度和亮度,使扫描变清晰。
如果您的扫描仪有手动亮度控制,调整它以便于字符清晰和更好的成形。如果字符连结在一起,请使用较高的(较亮的)设置。如果字符被分隔,请使用较低的(较暗的)设置。
要解决扫描仪错误或问题,请参阅以下故障排除文档:
对于以前已转换为 PDF 的扫描文档,Acrobat 可用来识别其中的文本。光学字符识别(OCR)软件允许您搜索、更正和复制扫描的 PDF 中的文本。要将 OCR 应用于 PDF,原始扫描仪分辨率必须设置为 72 dpi 或更高。
以 300 dpi 扫描会生成最适合转换的文本。以 150 dpi 扫描时,OCR 精度会略有降低。
选择所有工具 > 扫描和 OCR > 在本文件中。
“识别文本”选项显示在辅助工具栏中。
在辅助工具栏中,选择文本识别的页面范围和语言。
视情况单击“设置”以打开“识别文本”对话框,然后根据需要指定选项。
选择识别文本。Acrobat 会在您的 PDF 中创建一个可进行搜索或者可复制并粘贴到新文档中的文本图层。
选择所有工具 > 扫描和 OCR > 在多个文件中。
在识别文本对话框中,选择添加文件,然后选择添加文件、添加文件夹或添加打开的文件。接着,选择相应的文件或文件夹。此时将显示输出选项对话框。
在“输出选项”对话框中,指定输出文件的目标文件夹以及文件名首选项。选择确定。
在识别文本 - 一般设置对话框中,指定选项,然后选择确定。
Acrobat 会在您的 PDF 中创建一个可进行搜索或者可复制并粘贴到新文档中的文本图层。
文档语言
为 OCR 引擎指定用于识别字符的语言。
输出(PDF 输出样式)
确定要生成的 PDF 的类型。所有选项都需要 72 dpi 或更高(建议)的输入分辨率。所有的格式应用 OCR 和字体和页面识别于文本图像并将其转换为正常文本。
可搜索的图像
确保文本是可搜索和可选择的。本选项保持原始图像,根据需要抗扭斜和将不可见文本层放在其上方。在同一对话框中选择“对图像缩减像素采样”可确定是否对图像缩减像素采样以及缩减的程度。
可搜索的图像(精确)
确保文本是可搜索和可选择的。本选项保持原始图像,根据需要抗扭斜和将不可见文本层放在其上方。建议用于要求原始图像最大保真度的情况。
可编辑的文本和图像
合成一个与原始字体非常接近的新的自定义字体,并使用低分辨率副本保留页面背景。
缩减像素采样至
在 OCR 完成后减少彩色、灰度和单色图像的像素数。选择要应用的缩减像素采样的程度。更高的选项使用较少的缩减像素采样,产生更高分辨率的 PDF。
在扫描输出中运行 OCR 时,Acrobat 会对文本位图进行分析,并使用单词和字符替代这些位图区域。如果不确定最佳替代,Acrobat 会将其标记为可疑元素。可疑元素在 PDF 中显示为单词的原始位图,但是文本包含在单词位图后的不可见图层中。采用这种方法,即使单词显示为位图,也可以搜索。
注意:如果您尝试在未应用 OCR 的扫描 PDF 中选择文本,或者尝试在图像文件中执行朗读操作,Acrobat 会询问您是否要运行 OCR。如果选择“确定”,将会打开文本识别对话框,您可以在其中选择相关选项,这些选项在上一个主题中有详细说明。
选择所有工具 > 扫描和 OCR > 更正识别的文本。
Acrobat 将识别可疑的文本错误,并在辅助工具栏中并排显示图像和文本。页面中所有可疑单词都会框出。
选择文档中突出显示的对象或框,然后在辅助工具栏的识别为框中更正该内容。选择接受。
这将会突出显示下一个可疑错误。根据需要,更正错误。每次更正后,选择接受。
任务完成时,选择辅助工具栏中的关闭。