PDF ProGuide
  • EnglishEnglish
  • DeutschGerman
  • EspañolSpanish
  • FrançaisFrench
  • ItalianoItalian
  • PolskiPolish
  • PortuguêsPortuguese
  • TürkçeTurkish
  • РусскийRussian
  • हिन्दीHindi
  • 日本語Japanese
  • 简体中文Chinese
    (Simplified)
Open the tool
首页教程对扫描版PDF进行OCR识别

如何对扫描版PDF进行OCR识别——使用 PDF Pro OCR工具将页面图片转换为真实文本。

2分钟阅读 🎯 简单 🛠 PDF Pro OCR

扫描版PDF看起来像文档,但对计算机而言只是一叠图片——你无法选中姓名、搜索发票号码,屏幕阅读器也无法朗读它。OCR就是从这些图片中提取出真实可选文本的关键步骤。本教程将在你的浏览器标签页中完整演示这五个步骤。

你需要准备什么

五个步骤

1

打开OCR工具

前往 PDF Pro OCR工具。页面加载时已将Tesseract识别引擎以WebAssembly形式打包,随时在你的CPU上运行。无需注册,无需邮件验证,无每日页数限制——也没有上传接口发送你的扫描件。

2

选择你的扫描版PDF

将文件拖到拖放区域,或点击浏览。工具直接从你的磁盘读取文件,并渲染出每一页的缩略图网格。在此阶段,工具会悄悄地将页面分为两类:已包含真实文本层的页面,以及需要完整识别处理的纯图片页面。

3

选择识别语言

选择与你文档匹配的语言。识别引擎支持拉丁文字语言以及西里尔文、希腊文等——选择正确的语言是提升识别精度最有效的手段。首次使用某种语言时,会下载一个小型数据文件(几MB),随后缓存,下次使用该语言时即可立即开始。

4

运行OCR

点击运行OCR。工具以两种速度处理你的页面:已有真实文本层的页面会即时精确提取,而纯图片页面则在你的CPU上进行较慢的识别处理。进度指示器显示当前正在识别的页面——大量拍照页面的长篇扫描件是最慢的情况,请耐心等待片刻。

5

复制或保存提取的文本

识别完成后,结果是真实可选文本——而非页面的又一张图片。选中它,复制到剪贴板,或保存下来,然后粘贴到文档中、进行搜索,或输入翻译器或摘要工具。无需注册或升级,识别出的文本在出现的那一刻就属于你。

复制提取文本

常见错误与注意事项

故障排除

为什么有些页面瞬间完成,而另一些需要更长时间?

因为处理方式不同。已包含真实文本层的页面完全跳过OCR,通过快速精确的提取完成。只有真正的纯图片页面才会在你的CPU上进行较慢的识别处理——因此混合PDF会明显地时快时慢。

识别文本有错误。如何提高精度?

精度几乎完全取决于扫描质量。以约300 DPI重新扫描,确保清晰、平直、光线充足,确认识别语言与文档匹配,并在开始前对倾斜页面进行纠偏。印刷文本在干净扫描件上识别效果非常好;低对比度和模糊是影响精度的主要因素。

我的扫描文件会被上传到服务器吗?

不会。Tesseract引擎在你的浏览器内运行,因此扫描件直接从你的设备读取,永远不会离开设备。如需确认,请打开开发者工具,切换到网络标签页,然后运行OCR——你将看到零个文件上传。

我的文档包含两种语言。应该选择哪个?

选择文档的主要语言,并添加可选的英语辅助识别以覆盖次要语言。对于真正各占一半的页面,这种组合通常比单独运行任何一种语言效果更好。

浏览器能处理大型多页扫描件吗?

可以——没有人为的页数上限,因为识别消耗的是你的CPU时间,而非服务器费用。真正的上限是浏览器内存,现代笔记本电脑约为500 MB。几百页的扫描件只是需要更长时间;在手机上请尽量处理较短的文档。

准备好对扫描件进行OCR识别了吗?

打开浏览器OCR工具,按照上述五个步骤处理你的扫描版PDF。

打开工具 →

全部编辑教程