PDF ProGuide
  • EnglishEnglish
  • DeutschGerman
  • EspañolSpanish
  • FrançaisFrench
  • PolskiPolish
  • PortuguêsPortuguese
  • TürkçeTurkish
  • РусскийRussian
Open the tool
Strona głównaPoradnikiOCR zeskanowanego PDF

Jak wykonać OCR zeskanowanego PDF — zamiana obrazów stron w prawdziwy tekst za pomocą narzędzia OCR PDF Pro.

2 min czytania 🎯 Łatwe 🛠 OCR PDF Pro

Zeskanowany PDF wygląda jak dokument, lecz dla komputera jest jedynie stosem obrazków — nie zaznaczysz nazwiska, nie wyszukasz numeru faktury, nie odczyta go czytnik ekranu. OCR to krok, który wydobywa z tych obrazków prawdziwy, zaznaczalny tekst. Ten przewodnik prowadzi przez całą pracę w pięciu krokach, wykonywanych w całości w karcie przeglądarki.

Czego będziesz potrzebować

Pięć kroków

1

Otwórz narzędzie OCR

Przejdź do narzędzia OCR PDF Pro. Strona ładuje się z silnikiem rozpoznawania Tesseract w postaci WebAssembly, gotowym do uruchomienia na Twoim procesorze. Nie ma rejestracji, ściany potwierdzania adresu e-mail, dziennego licznika stron — ani żadnego punktu wysyłki, do którego trafiłby Twój skan.

2

Wybierz swój zeskanowany PDF

Przeciągnij plik na obszar upuszczania lub kliknij, aby go wybrać. Narzędzie odczytuje go prosto z dysku i renderuje siatkę miniatur wszystkich stron. To również moment, w którym narzędzie po cichu dzieli strony na dwie grupy: strony, które już zawierają prawdziwą warstwę tekstu, oraz strony czysto obrazkowe, które będą wymagać pełnego przebiegu rozpoznawania.

3

Wybierz język rozpoznawania

Wybierz język odpowiadający Twojemu dokumentowi. Silnik rozpoznaje języki w alfabecie łacińskim, a także cyrylicę, grekę i inne — a wybór właściwego to największa dźwignia dokładności, jaką masz. Przy pierwszym użyciu danego języka pobiera się niewielki plik danych (kilka MB), który jest następnie zapisywany w pamięci podręcznej, więc kolejne uruchomienie w tym języku rusza natychmiast.

4

Uruchom OCR

Kliknij Uruchom OCR. Narzędzie przetwarza strony w dwóch tempach: każda strona, która ma już prawdziwą warstwę tekstu, jest wyodrębniana natychmiast i dokładnie, a strony czysto obrazkowe przechodzą wolniejszy przebieg rozpoznawania na Twoim procesorze. Wskaźnik postępu pokazuje, która strona jest właśnie odczytywana — długi skan sfotografowanych stron to najwolniejszy przypadek, więc daj mu chwilę.

5

Skopiuj lub zapisz wyodrębniony tekst

Gdy przebieg się zakończy, wynikiem jest prawdziwy, zaznaczalny tekst — a nie kolejny obraz strony. Zaznacz go, skopiuj do schowka albo zapisz, a następnie wklej do dokumentu, przeszukaj lub przekaż do tłumacza czy narzędzia podsumowującego. Nic nie jest zablokowane za rejestracją ani aktualizacją planu; rozpoznany tekst należy do Ciebie w chwili, w której się pojawia.

Skopiuj wyodrębniony tekst

Typowe błędy i pułapki

Rozwiązywanie problemów

Dlaczego niektóre strony skończyły się natychmiast, a inne trwały znacznie dłużej?

Ponieważ zostały potraktowane inaczej. Strony, które już zawierają prawdziwą warstwę tekstu, w ogóle pomijają OCR i przechodzą przez szybkie, dokładne wyodrębnianie. Tylko strony rzeczywiście czysto obrazkowe przechodzą wolniejszy przebieg rozpoznawania na Twoim procesorze — dlatego mieszany PDF będzie widocznie przyspieszać i zwalniać w trakcie pracy.

Rozpoznany tekst zawiera błędy. Jak poprawić dokładność?

Dokładność zależy niemal wyłącznie od skanu. Zeskanuj ponownie ostro, prosto i przy dobrym świetle, w okolicach 300 DPI, upewnij się, że język rozpoznawania odpowiada dokumentowi, i wyprostuj przekrzywione strony przed startem. Tekst drukowany na czystym skanie rozpoznaje się bardzo dobrze; szkodzą niski kontrast i rozmycie.

Czy mój zeskanowany plik jest wysyłany na serwer?

Nie. Silnik Tesseract działa wewnątrz Twojej przeglądarki, więc skan jest odczytywany prosto z urządzenia i nigdy go nie opuszcza. Jeśli chcesz to potwierdzić, otwórz DevTools, przejdź do karty Network (Sieć) i uruchom OCR — zobaczysz zero wysyłek plików.

Mój dokument jest w dwóch językach. Który wybrać?

Wybierz dominujący język dokumentu i dodaj opcjonalny przebieg angielski, aby wychwycić ten drugi. W przypadku strony rzeczywiście podzielonej po połowie ta kombinacja zwykle wypada lepiej niż uruchamianie któregokolwiek języka osobno.

Czy przeglądarka poradzi sobie z dużym, wielostronicowym skanem?

Tak — nie ma sztucznego limitu stron, ponieważ rozpoznawanie kosztuje czas Twojego procesora, a nie rachunek za serwer. Prawdziwym ograniczeniem jest pamięć przeglądarki, około 500 MB na nowoczesnym laptopie. Kilkusetstronicowy skan po prostu trwa dłużej; na telefonie trzymaj się krótszych dokumentów.

Gotowy na OCR skanu?

Otwórz przeglądarkowe narzędzie OCR i przeprowadź swój zeskanowany PDF przez powyższe pięć kroków.

Otwórz narzędzie →

Wszystkie poradniki redakcyjne