スキャンしたPDFをOCRする方法 — PDF Pro OCRツールでページの画像から本物のテキストに変換。
スキャンしたPDFはドキュメントのように見えますが、コンピューターにとってはただの画像の積み重ねです — 名前を選択したり、請求書番号を検索したり、スクリーンリーダーで読み上げたりすることができません。OCRはそれらの画像から本物の選択可能なテキストを取り出すステップです。このガイドでは、ブラウザのタブ内で完全に実行される5ステップで全体の作業を案内します。
必要なもの
- 最新のブラウザ(過去2年以内のChrome、Edge、Firefox、またはSafari)
- デバイスにあるOCR処理したいスキャン済みまたは画像のみのPDF
- 書類の言語の把握 — これが精度を左右します
- 少しの時間 — 画像のみのページはより遅い認識処理が必要で、言語の初回使用時は小さなパックをダウンロードします
5つのステップ
OCRツールを開く
PDF Pro OCRツールにアクセスします。ページには、お使いのCPUで実行できるWebAssemblyとしてバンドルされたTesseract認識エンジンが読み込まれます。登録不要、メール確認不要、1日のページ数上限なし — スキャンを送信するアップロードエンドポイントもありません。
スキャンしたPDFを選択
ファイルをドロップゾーンにドラッグするか、クリックして参照します。ツールはディスクから直接読み取り、すべてのページのサムネイルグリッドをレンダリングします。ここでツールはページを2つのグループに自動的に分類します:すでに本物のテキストレイヤーを持つページと、完全な認識処理が必要な画像のみのページです。
認識言語を選択
書類に合った言語を選択します。エンジンはラテン文字言語に加え、キリル文字、ギリシャ文字などを認識します — 正しい言語を選ぶことが最大の精度向上手段です。ある言語を初めて使用するとき、小さなデータファイル(数MB)がダウンロードされキャッシュされます。同じ言語の次回実行はすぐに始まります。
OCRを実行
OCRを実行をクリックします。ツールは2つの速度でページを処理します:すでに本物のテキストレイヤーを持つページは即座に正確に抽出され、画像のみのページはお使いのCPU上で遅い認識処理を行います。進行状況インジケーターが読み取り中のページを表示します — 撮影されたページの長いスキャンが最も時間がかかるので、しばらくお待ちください。
抽出されたテキストをコピーまたは保存
処理が完了すると、結果はページの別の画像ではなく本物の選択可能なテキストになります。選択してクリップボードにコピーするか保存し、ドキュメントに貼り付けたり、検索したり、翻訳ツールや要約ツールに入力したりできます。登録やアップグレードの壁はありません。認識されたテキストは表示された瞬間からあなたのものです。
抽出されたテキストをコピーよくある間違いと注意点
- ぼやけた写真から完璧な結果を期待すること。 OCRの精度はスキャン品質に依存します。印刷されたテキストをきれいに、まっすぐ、約300 DPIでスキャンすれば非常によく認識されますが、暗い場所で斜めに撮ったスマートフォンの写真ではそうはいきません。ツールを責める前に再スキャンしてください。
- 間違った認識言語を選ぶこと。 キリル文字の書類に英語パスを実行すると、確信を持った意味不明な結果が出ます。書類に合った言語を選んでください — これが最もコストのかからない精度向上手段です。
- 手書きをOCRしようとすること。 エンジンは印刷されたテキスト向けに調整されています。手書きのメモ、署名、筆記体は、どんなにきれいなスキャンでも信頼性が低くなります。
- 最初の実行が遅いのでバグだと思うこと。 ある言語を初めて使用するとき、数メガバイトのデータパックをダウンロードします。これは1回限りのコストです — キャッシュされ、同じ言語の後の実行はすぐに始まります。
- 画像ファイルを直接入力しようとすること。 ツールはPDFファイルを受け付けます。写真しかない場合は、先にPDFに入れてください — JPGをPDFに変換するツールがブラウザ内でそれを行います — そして出来上がったPDFにOCRを実行します。
トラブルシューティング
一部のページが瞬時に完了し、他のページが大幅に時間がかかるのはなぜですか?
異なる方法で処理されるからです。すでに本物のテキストレイヤーを含むページはOCRを完全にスキップし、高速で正確な抽出が行われます。本当に画像のみのページだけがCPU上の遅い認識処理を行います — そのため混在するPDFでは処理速度が目に見えて速くなったり遅くなったりします。
認識されたテキストに誤りがあります。精度を改善するにはどうすればいいですか?
精度はほぼスキャンに依存します。約300 DPIで鮮明に、まっすぐ、明るく再スキャンし、認識言語が書類に合っていることを確認し、開始前に傾いたページを補正してください。クリーンなスキャンの印刷テキストは非常によく認識されます;低コントラストとぼかしが精度を損ないます。
スキャンしたファイルはサーバーにアップロードされますか?
いいえ。Tesseractエンジンはブラウザ内で実行されるため、スキャンはデバイスから直接読み取られ、デバイスの外に出ることはありません。確認したい場合は、DevToolsを開いてネットワークタブに切り替え、OCRを実行してください — ファイルのアップロードが0件であることを確認できます。
書類が2つの言語を使っています。どちらを選べばよいですか?
書類の主要言語を選択し、オプションの英語パスを追加して二番目の言語をカバーします。本当に半々のページでは、その組み合わせが通常どちらか一方の言語だけで実行するより良い結果になります。
ブラウザは大きなマルチページスキャンを処理できますか?
はい — 人工的なページ上限はありません。認識にはサーバーの費用ではなくお使いのCPU時間がかかるからです。実際の上限はブラウザのメモリで、最新のノートPCで約500MBです。数百ページのスキャンは単純に時間がかかります。スマートフォンでは短い書類にとどめてください。
スキャンをOCRする準備ができましたか?
ブラウザのOCRツールを開いて、スキャンしたPDFを上記の5ステップで処理します。