首页›教程›对扫描版PDF进行OCR识别

如何对扫描版PDF进行OCR识别——使用 PDF Pro OCR工具将页面图片转换为真实文本。

⏱ 2分钟阅读 🎯 简单 🛠 PDF Pro OCR

扫描版PDF看起来像文档，但对计算机而言只是一叠图片——你无法选中姓名、搜索发票号码，屏幕阅读器也无法朗读它。OCR就是从这些图片中提取出真实可选文本的关键步骤。本教程将在你的浏览器标签页中完整演示这五个步骤。

你需要准备什么

前往 PDF Pro OCR工具。页面加载时已将Tesseract识别引擎以WebAssembly形式打包，随时在你的CPU上运行。无需注册，无需邮件验证，无每日页数限制——也没有上传接口发送你的扫描件。

将文件拖到拖放区域，或点击浏览。工具直接从你的磁盘读取文件，并渲染出每一页的缩略图网格。在此阶段，工具会悄悄地将页面分为两类：已包含真实文本层的页面，以及需要完整识别处理的纯图片页面。

选择与你文档匹配的语言。识别引擎支持拉丁文字语言以及西里尔文、希腊文等——选择正确的语言是提升识别精度最有效的手段。首次使用某种语言时，会下载一个小型数据文件（几MB），随后缓存，下次使用该语言时即可立即开始。

点击运行OCR。工具以两种速度处理你的页面：已有真实文本层的页面会即时精确提取，而纯图片页面则在你的CPU上进行较慢的识别处理。进度指示器显示当前正在识别的页面——大量拍照页面的长篇扫描件是最慢的情况，请耐心等待片刻。

识别完成后，结果是真实可选文本——而非页面的又一张图片。选中它，复制到剪贴板，或保存下来，然后粘贴到文档中、进行搜索，或输入翻译器或摘要工具。无需注册或升级，识别出的文本在出现的那一刻就属于你。

复制提取文本

期望从模糊照片中获得完美结果。OCR精度受扫描质量限制。对印刷文本进行清晰、平直、约300 DPI的扫描效果非常好；在昏暗光线下用手机斜拍的照片则效果极差。先改善扫描质量，再怪工具。
选择了错误的识别语言。对西里尔文文档运行英语识别会产生自信却毫无意义的乱码。将语言与文档匹配——这是最简单的精度提升方法。
尝试对手写内容进行OCR识别。识别引擎针对印刷文本进行了优化。无论扫描多清晰，手写笔记、签名和草书的识别效果都会不稳定。
因为速度慢就以为第一次运行出了问题。首次使用某种语言时，需要下载几MB的数据包。这是一次性成本——它会被缓存，之后使用该语言时会立即开始。
直接输入散图文件。该工具接受PDF文件。如果你只有照片，请先将其放入PDF中——JPG转PDF转换器可在你的浏览器中完成此操作——然后对生成的PDF运行OCR。

为什么有些页面瞬间完成，而另一些需要更长时间？

因为处理方式不同。已包含真实文本层的页面完全跳过OCR，通过快速精确的提取完成。只有真正的纯图片页面才会在你的CPU上进行较慢的识别处理——因此混合PDF会明显地时快时慢。

识别文本有错误。如何提高精度？

精度几乎完全取决于扫描质量。以约300 DPI重新扫描，确保清晰、平直、光线充足，确认识别语言与文档匹配，并在开始前对倾斜页面进行纠偏。印刷文本在干净扫描件上识别效果非常好；低对比度和模糊是影响精度的主要因素。

我的扫描文件会被上传到服务器吗？

不会。Tesseract引擎在你的浏览器内运行，因此扫描件直接从你的设备读取，永远不会离开设备。如需确认，请打开开发者工具，切换到网络标签页，然后运行OCR——你将看到零个文件上传。

我的文档包含两种语言。应该选择哪个？

选择文档的主要语言，并添加可选的英语辅助识别以覆盖次要语言。对于真正各占一半的页面，这种组合通常比单独运行任何一种语言效果更好。

浏览器能处理大型多页扫描件吗？

可以——没有人为的页数上限，因为识别消耗的是你的CPU时间，而非服务器费用。真正的上限是浏览器内存，现代笔记本电脑约为500 MB。几百页的扫描件只是需要更长时间；在手机上请尽量处理较短的文档。

打开浏览器OCR工具，按照上述五个步骤处理你的扫描版PDF。