PDF ProGuide
  • EnglishEnglish
  • DeutschGerman
  • EspañolSpanish
  • FrançaisFrench
  • ItalianoItalian
  • PolskiPolish
  • PortuguêsPortuguese
  • TürkçeTurkish
  • РусскийRussian
  • हिन्दीHindi
  • 日本語Japanese
  • 简体中文Chinese
    (Simplified)
Open the tool
ホームガイドスキャンしたPDFをOCR

スキャンしたPDFをOCRする方法 — PDF Pro OCRツールでページの画像から本物のテキストに変換。

2分で読める 🎯 かんたん 🛠 PDF Pro OCR

スキャンしたPDFはドキュメントのように見えますが、コンピューターにとってはただの画像の積み重ねです — 名前を選択したり、請求書番号を検索したり、スクリーンリーダーで読み上げたりすることができません。OCRはそれらの画像から本物の選択可能なテキストを取り出すステップです。このガイドでは、ブラウザのタブ内で完全に実行される5ステップで全体の作業を案内します。

必要なもの

5つのステップ

1

OCRツールを開く

PDF Pro OCRツールにアクセスします。ページには、お使いのCPUで実行できるWebAssemblyとしてバンドルされたTesseract認識エンジンが読み込まれます。登録不要、メール確認不要、1日のページ数上限なし — スキャンを送信するアップロードエンドポイントもありません。

2

スキャンしたPDFを選択

ファイルをドロップゾーンにドラッグするか、クリックして参照します。ツールはディスクから直接読み取り、すべてのページのサムネイルグリッドをレンダリングします。ここでツールはページを2つのグループに自動的に分類します:すでに本物のテキストレイヤーを持つページと、完全な認識処理が必要な画像のみのページです。

3

認識言語を選択

書類に合った言語を選択します。エンジンはラテン文字言語に加え、キリル文字、ギリシャ文字などを認識します — 正しい言語を選ぶことが最大の精度向上手段です。ある言語を初めて使用するとき、小さなデータファイル(数MB)がダウンロードされキャッシュされます。同じ言語の次回実行はすぐに始まります。

4

OCRを実行

OCRを実行をクリックします。ツールは2つの速度でページを処理します:すでに本物のテキストレイヤーを持つページは即座に正確に抽出され、画像のみのページはお使いのCPU上で遅い認識処理を行います。進行状況インジケーターが読み取り中のページを表示します — 撮影されたページの長いスキャンが最も時間がかかるので、しばらくお待ちください。

5

抽出されたテキストをコピーまたは保存

処理が完了すると、結果はページの別の画像ではなく本物の選択可能なテキストになります。選択してクリップボードにコピーするか保存し、ドキュメントに貼り付けたり、検索したり、翻訳ツールや要約ツールに入力したりできます。登録やアップグレードの壁はありません。認識されたテキストは表示された瞬間からあなたのものです。

抽出されたテキストをコピー

よくある間違いと注意点

トラブルシューティング

一部のページが瞬時に完了し、他のページが大幅に時間がかかるのはなぜですか?

異なる方法で処理されるからです。すでに本物のテキストレイヤーを含むページはOCRを完全にスキップし、高速で正確な抽出が行われます。本当に画像のみのページだけがCPU上の遅い認識処理を行います — そのため混在するPDFでは処理速度が目に見えて速くなったり遅くなったりします。

認識されたテキストに誤りがあります。精度を改善するにはどうすればいいですか?

精度はほぼスキャンに依存します。約300 DPIで鮮明に、まっすぐ、明るく再スキャンし、認識言語が書類に合っていることを確認し、開始前に傾いたページを補正してください。クリーンなスキャンの印刷テキストは非常によく認識されます;低コントラストとぼかしが精度を損ないます。

スキャンしたファイルはサーバーにアップロードされますか?

いいえ。Tesseractエンジンはブラウザ内で実行されるため、スキャンはデバイスから直接読み取られ、デバイスの外に出ることはありません。確認したい場合は、DevToolsを開いてネットワークタブに切り替え、OCRを実行してください — ファイルのアップロードが0件であることを確認できます。

書類が2つの言語を使っています。どちらを選べばよいですか?

書類の主要言語を選択し、オプションの英語パスを追加して二番目の言語をカバーします。本当に半々のページでは、その組み合わせが通常どちらか一方の言語だけで実行するより良い結果になります。

ブラウザは大きなマルチページスキャンを処理できますか?

はい — 人工的なページ上限はありません。認識にはサーバーの費用ではなくお使いのCPU時間がかかるからです。実際の上限はブラウザのメモリで、最新のノートPCで約500MBです。数百ページのスキャンは単純に時間がかかります。スマートフォンでは短い書類にとどめてください。

スキャンをOCRする準備ができましたか?

ブラウザのOCRツールを開いて、スキャンしたPDFを上記の5ステップで処理します。

ツールを開く →

すべての解説ガイド