PDF ProGuide
  • EnglishEnglish
  • DeutschGerman
  • EspañolSpanish
  • FrançaisFrench
  • PolskiPolish
  • PortuguêsPortuguese
  • TürkçeTurkish
  • РусскийRussian
Open the tool
StartseiteAnleitungenGescannte PDF per OCR

So wenden Sie OCR auf eine gescannte PDF an – aus Bildern von Seiten echten Text gewinnen mit dem PDF Pro OCR-Tool.

2 Min. Lesezeit 🎯 Einfach 🛠 PDF Pro OCR

Eine gescannte PDF sieht aus wie ein Dokument, für den Computer ist sie aber nur ein Stapel Bilder – Sie können keinen Namen markieren, keine Rechnungsnummer suchen und kein Screenreader kann sie vorlesen. OCR ist der Schritt, der echten, markierbaren Text wieder aus diesen Bildern herausholt. Diese Anleitung führt die ganze Aufgabe in fünf Schritten durch – komplett in Ihrem Browser-Tab.

Was Sie brauchen

Die fünf Schritte

1

OCR-Tool öffnen

Rufen Sie das PDF Pro OCR-Tool auf. Die Seite lädt mit der als WebAssembly gebündelten Tesseract-Erkennungs-Engine, bereit zur Ausführung auf Ihrer CPU. Es gibt keine Anmeldung, keine E-Mail-Bestätigungs-Hürde, keinen täglichen Seitenzähler – und keinen Upload-Endpunkt, an den Ihr Scan gesendet wird.

2

Gescannte PDF auswählen

Ziehen Sie die Datei in die Ablagezone oder klicken Sie zum Durchsuchen. Das Tool liest sie direkt von Ihrer Festplatte und stellt ein Vorschauraster aller Seiten dar. Hier sortiert das Tool Ihre Seiten auch unauffällig in zwei Gruppen: Seiten, die bereits eine echte Textebene tragen, und reine Bildseiten, die den vollen Erkennungsdurchlauf benötigen.

3

Erkennungssprache wählen

Wählen Sie die Sprache, die zu Ihrem Dokument passt. Die Engine erkennt Sprachen in lateinischer Schrift sowie Kyrillisch, Griechisch und mehr – und die richtige Wahl ist der größte Hebel für die Genauigkeit, den Sie haben. Beim ersten Mal, wenn Sie eine bestimmte Sprache nutzen, wird eine kleine Datendatei (wenige MB) heruntergeladen und anschließend zwischengespeichert, sodass der nächste Durchlauf in dieser Sprache sofort startet.

4

OCR ausführen

Klicken Sie auf OCR ausführen. Das Tool arbeitet Ihre Seiten in zwei Geschwindigkeiten ab: Jede Seite, die bereits eine echte Textebene hat, wird sofort und exakt extrahiert, während reine Bildseiten den langsameren Erkennungsdurchlauf auf Ihrer CPU durchlaufen. Eine Fortschrittsanzeige zeigt, welche Seite gerade gelesen wird – ein langer Scan abfotografierter Seiten ist der langsamste Fall, geben Sie ihm also einen Moment.

5

Erkannten Text kopieren oder speichern

Wenn der Durchlauf abgeschlossen ist, ist das Ergebnis echter, markierbarer Text – kein weiteres Bild der Seite. Markieren Sie ihn, kopieren Sie ihn in die Zwischenablage oder speichern Sie ihn, und fügen Sie ihn dann in ein Dokument ein, durchsuchen Sie ihn oder übergeben Sie ihn einem Übersetzer oder Zusammenfasser. Nichts ist hinter einer Anmeldung oder einem Upgrade verschlossen; der erkannte Text gehört Ihnen in dem Moment, in dem er erscheint.

Erkannten Text kopieren

Häufige Fehler & Fallstricke

Fehlerbehebung

Warum wurden manche Seiten sofort fertig und andere brauchten viel länger?

Weil sie unterschiedlich behandelt wurden. Seiten, die bereits eine echte Textebene enthalten, überspringen OCR vollständig und durchlaufen eine schnelle, exakte Extraktion. Nur echte reine Bildseiten erhalten den langsameren Erkennungsdurchlauf auf Ihrer CPU – eine gemischte PDF wird also sichtbar schneller und langsamer, während sie arbeitet.

Der erkannte Text enthält Fehler. Wie verbessere ich die Genauigkeit?

Die Genauigkeit hängt fast vollständig vom Scan ab. Scannen Sie scharf, gerade und gut beleuchtet bei etwa 300 DPI neu, stellen Sie sicher, dass die Erkennungssprache zum Dokument passt, und entzerren Sie schräge Seiten, bevor Sie beginnen. Gedruckter Text auf einem sauberen Scan wird sehr gut erkannt; geringer Kontrast und Unschärfe sind das, was schadet.

Wird meine gescannte Datei auf einen Server hochgeladen?

Nein. Die Tesseract-Engine läuft in Ihrem Browser, sodass der Scan direkt von Ihrem Gerät gelesen wird und es niemals verlässt. Wenn Sie das bestätigen möchten, öffnen Sie die DevTools, wechseln Sie zum Tab Netzwerk und führen Sie OCR aus – Sie werden null Datei-Uploads sehen.

Mein Dokument ist in zwei Sprachen. Welche soll ich wählen?

Wählen Sie die dominante Sprache des Dokuments und fügen Sie den optionalen Englisch-Durchlauf hinzu, um die zweite zu erfassen. Bei einer Seite, die wirklich halb und halb ist, schlägt diese Kombination meist das alleinige Ausführen einer der beiden Sprachen.

Kann der Browser einen großen mehrseitigen Scan bewältigen?

Ja – es gibt keine künstliche Seitenobergrenze, denn die Erkennung kostet Ihre CPU-Zeit, nicht eine Serverrechnung. Die echte Grenze ist der Arbeitsspeicher Ihres Browsers, etwa 500 MB auf einem modernen Laptop. Ein Scan mit einigen hundert Seiten dauert einfach länger; bleiben Sie auf einem Smartphone bei kürzeren Dokumenten.

Bereit, einen Scan per OCR zu erkennen?

Öffnen Sie das Browser-OCR-Tool und führen Sie Ihre gescannte PDF durch die fünf Schritte oben.

Tool öffnen →

Alle redaktionellen Anleitungen