如何对扫描版PDF进行OCR识别——使用 PDF Pro OCR工具将页面图片转换为真实文本。
扫描版PDF看起来像文档,但对计算机而言只是一叠图片——你无法选中姓名、搜索发票号码,屏幕阅读器也无法朗读它。OCR就是从这些图片中提取出真实可选文本的关键步骤。本教程将在你的浏览器标签页中完整演示这五个步骤。
你需要准备什么
- 现代浏览器(近两年的Chrome、Edge、Firefox或Safari)
- 你想进行OCR识别的扫描版或纯图片PDF,保存在你的设备上
- 了解文档使用的语言——这直接影响识别精度
- 几分钟时间——纯图片页面需要较慢的识别过程,首次使用某种语言时需要下载一个小型语言包
五个步骤
打开OCR工具
前往 PDF Pro OCR工具。页面加载时已将Tesseract识别引擎以WebAssembly形式打包,随时在你的CPU上运行。无需注册,无需邮件验证,无每日页数限制——也没有上传接口发送你的扫描件。
选择你的扫描版PDF
将文件拖到拖放区域,或点击浏览。工具直接从你的磁盘读取文件,并渲染出每一页的缩略图网格。在此阶段,工具会悄悄地将页面分为两类:已包含真实文本层的页面,以及需要完整识别处理的纯图片页面。
选择识别语言
选择与你文档匹配的语言。识别引擎支持拉丁文字语言以及西里尔文、希腊文等——选择正确的语言是提升识别精度最有效的手段。首次使用某种语言时,会下载一个小型数据文件(几MB),随后缓存,下次使用该语言时即可立即开始。
运行OCR
点击运行OCR。工具以两种速度处理你的页面:已有真实文本层的页面会即时精确提取,而纯图片页面则在你的CPU上进行较慢的识别处理。进度指示器显示当前正在识别的页面——大量拍照页面的长篇扫描件是最慢的情况,请耐心等待片刻。
复制或保存提取的文本
识别完成后,结果是真实可选文本——而非页面的又一张图片。选中它,复制到剪贴板,或保存下来,然后粘贴到文档中、进行搜索,或输入翻译器或摘要工具。无需注册或升级,识别出的文本在出现的那一刻就属于你。
复制提取文本常见错误与注意事项
- 期望从模糊照片中获得完美结果。OCR精度受扫描质量限制。对印刷文本进行清晰、平直、约300 DPI的扫描效果非常好;在昏暗光线下用手机斜拍的照片则效果极差。先改善扫描质量,再怪工具。
- 选择了错误的识别语言。对西里尔文文档运行英语识别会产生自信却毫无意义的乱码。将语言与文档匹配——这是最简单的精度提升方法。
- 尝试对手写内容进行OCR识别。识别引擎针对印刷文本进行了优化。无论扫描多清晰,手写笔记、签名和草书的识别效果都会不稳定。
- 因为速度慢就以为第一次运行出了问题。首次使用某种语言时,需要下载几MB的数据包。这是一次性成本——它会被缓存,之后使用该语言时会立即开始。
- 直接输入散图文件。该工具接受PDF文件。如果你只有照片,请先将其放入PDF中——JPG转PDF转换器可在你的浏览器中完成此操作——然后对生成的PDF运行OCR。
故障排除
为什么有些页面瞬间完成,而另一些需要更长时间?
因为处理方式不同。已包含真实文本层的页面完全跳过OCR,通过快速精确的提取完成。只有真正的纯图片页面才会在你的CPU上进行较慢的识别处理——因此混合PDF会明显地时快时慢。
识别文本有错误。如何提高精度?
精度几乎完全取决于扫描质量。以约300 DPI重新扫描,确保清晰、平直、光线充足,确认识别语言与文档匹配,并在开始前对倾斜页面进行纠偏。印刷文本在干净扫描件上识别效果非常好;低对比度和模糊是影响精度的主要因素。
我的扫描文件会被上传到服务器吗?
不会。Tesseract引擎在你的浏览器内运行,因此扫描件直接从你的设备读取,永远不会离开设备。如需确认,请打开开发者工具,切换到网络标签页,然后运行OCR——你将看到零个文件上传。
我的文档包含两种语言。应该选择哪个?
选择文档的主要语言,并添加可选的英语辅助识别以覆盖次要语言。对于真正各占一半的页面,这种组合通常比单独运行任何一种语言效果更好。
浏览器能处理大型多页扫描件吗?
可以——没有人为的页数上限,因为识别消耗的是你的CPU时间,而非服务器费用。真正的上限是浏览器内存,现代笔记本电脑约为500 MB。几百页的扫描件只是需要更长时间;在手机上请尽量处理较短的文档。
准备好对扫描件进行OCR识别了吗?
打开浏览器OCR工具,按照上述五个步骤处理你的扫描版PDF。