Strona główna›Poradniki›OCR zeskanowanego PDF

Jak wykonać OCR zeskanowanego PDF — zamiana obrazów stron w prawdziwy tekst za pomocą narzędzia OCR PDF Pro.

⏱ 2 min czytania 🎯 Łatwe 🛠 OCR PDF Pro

Zeskanowany PDF wygląda jak dokument, lecz dla komputera jest jedynie stosem obrazków — nie zaznaczysz nazwiska, nie wyszukasz numeru faktury, nie odczyta go czytnik ekranu. OCR to krok, który wydobywa z tych obrazków prawdziwy, zaznaczalny tekst. Ten przewodnik prowadzi przez całą pracę w pięciu krokach, wykonywanych w całości w karcie przeglądarki.

Czego będziesz potrzebować

Nowoczesnej przeglądarki (Chrome, Edge, Firefox lub Safari z ostatnich dwóch lat)
Zeskanowanego lub czysto obrazkowego pliku PDF, który chcesz przetworzyć OCR, na swoim urządzeniu
Wiedzy o tym, w jakim języku jest dokument — to decyduje o dokładności
Kilku minut — strony czysto obrazkowe wymagają wolniejszego przebiegu rozpoznawania, a pierwsze użycie danego języka pobiera niewielki pakiet

Pięć kroków

Otwórz narzędzie OCR

Przejdź do narzędzia OCR PDF Pro. Strona ładuje się z silnikiem rozpoznawania Tesseract w postaci WebAssembly, gotowym do uruchomienia na Twoim procesorze. Nie ma rejestracji, ściany potwierdzania adresu e-mail, dziennego licznika stron — ani żadnego punktu wysyłki, do którego trafiłby Twój skan.

Wybierz swój zeskanowany PDF

Przeciągnij plik na obszar upuszczania lub kliknij, aby go wybrać. Narzędzie odczytuje go prosto z dysku i renderuje siatkę miniatur wszystkich stron. To również moment, w którym narzędzie po cichu dzieli strony na dwie grupy: strony, które już zawierają prawdziwą warstwę tekstu, oraz strony czysto obrazkowe, które będą wymagać pełnego przebiegu rozpoznawania.

Wybierz język rozpoznawania

Wybierz język odpowiadający Twojemu dokumentowi. Silnik rozpoznaje języki w alfabecie łacińskim, a także cyrylicę, grekę i inne — a wybór właściwego to największa dźwignia dokładności, jaką masz. Przy pierwszym użyciu danego języka pobiera się niewielki plik danych (kilka MB), który jest następnie zapisywany w pamięci podręcznej, więc kolejne uruchomienie w tym języku rusza natychmiast.

Uruchom OCR

Kliknij Uruchom OCR. Narzędzie przetwarza strony w dwóch tempach: każda strona, która ma już prawdziwą warstwę tekstu, jest wyodrębniana natychmiast i dokładnie, a strony czysto obrazkowe przechodzą wolniejszy przebieg rozpoznawania na Twoim procesorze. Wskaźnik postępu pokazuje, która strona jest właśnie odczytywana — długi skan sfotografowanych stron to najwolniejszy przypadek, więc daj mu chwilę.

Skopiuj lub zapisz wyodrębniony tekst

Gdy przebieg się zakończy, wynikiem jest prawdziwy, zaznaczalny tekst — a nie kolejny obraz strony. Zaznacz go, skopiuj do schowka albo zapisz, a następnie wklej do dokumentu, przeszukaj lub przekaż do tłumacza czy narzędzia podsumowującego. Nic nie jest zablokowane za rejestracją ani aktualizacją planu; rozpoznany tekst należy do Ciebie w chwili, w której się pojawia.

Skopiuj wyodrębniony tekst

Typowe błędy i pułapki

Oczekiwanie perfekcji od rozmytego zdjęcia. Dokładność OCR jest ograniczona jakością skanu. Czysty, prosty skan tekstu drukowanego w ~300 DPI rozpoznaje się bardzo dobrze; zdjęcie z telefonu zrobione pod kątem przy słabym świetle — nie. Zeskanuj ponownie, zanim obarczysz winą narzędzie.
Wybranie niewłaściwego języka rozpoznawania. Uruchomienie przebiegu angielskiego na dokumencie w cyrylicy daje pewny siebie bełkot. Dopasuj język do dokumentu — to najtańszy sposób na poprawę dokładności.
Próba OCR pisma odręcznego. Silnik jest dostrojony do tekstu drukowanego. Notatki odręczne, podpisy i pismo łączone będą zawodne, niezależnie od tego, jak czysty jest skan.
Zakładanie, że pierwsze uruchomienie jest zepsute, bo jest wolne. Przy pierwszym użyciu języka pobiera się kilkumegabajtowy pakiet danych. To koszt jednorazowy — pakiet jest zapisywany w pamięci podręcznej, a kolejne uruchomienia w tym języku ruszają natychmiast.
Podawanie luźnego pliku obrazu. Narzędzie przyjmuje pliki PDF. Jeśli masz tylko zdjęcie, najpierw umieść je w PDF — konwerter JPG na PDF zrobi to w Twojej przeglądarce — a potem uruchom OCR na powstałym PDF.

Rozwiązywanie problemów

Dlaczego niektóre strony skończyły się natychmiast, a inne trwały znacznie dłużej?

Ponieważ zostały potraktowane inaczej. Strony, które już zawierają prawdziwą warstwę tekstu, w ogóle pomijają OCR i przechodzą przez szybkie, dokładne wyodrębnianie. Tylko strony rzeczywiście czysto obrazkowe przechodzą wolniejszy przebieg rozpoznawania na Twoim procesorze — dlatego mieszany PDF będzie widocznie przyspieszać i zwalniać w trakcie pracy.

Rozpoznany tekst zawiera błędy. Jak poprawić dokładność?

Dokładność zależy niemal wyłącznie od skanu. Zeskanuj ponownie ostro, prosto i przy dobrym świetle, w okolicach 300 DPI, upewnij się, że język rozpoznawania odpowiada dokumentowi, i wyprostuj przekrzywione strony przed startem. Tekst drukowany na czystym skanie rozpoznaje się bardzo dobrze; szkodzą niski kontrast i rozmycie.

Czy mój zeskanowany plik jest wysyłany na serwer?

Nie. Silnik Tesseract działa wewnątrz Twojej przeglądarki, więc skan jest odczytywany prosto z urządzenia i nigdy go nie opuszcza. Jeśli chcesz to potwierdzić, otwórz DevTools, przejdź do karty Network (Sieć) i uruchom OCR — zobaczysz zero wysyłek plików.

Mój dokument jest w dwóch językach. Który wybrać?

Wybierz dominujący język dokumentu i dodaj opcjonalny przebieg angielski, aby wychwycić ten drugi. W przypadku strony rzeczywiście podzielonej po połowie ta kombinacja zwykle wypada lepiej niż uruchamianie któregokolwiek języka osobno.

Czy przeglądarka poradzi sobie z dużym, wielostronicowym skanem?

Tak — nie ma sztucznego limitu stron, ponieważ rozpoznawanie kosztuje czas Twojego procesora, a nie rachunek za serwer. Prawdziwym ograniczeniem jest pamięć przeglądarki, około 500 MB na nowoczesnym laptopie. Kilkusetstronicowy skan po prostu trwa dłużej; na telefonie trzymaj się krótszych dokumentów.

Gotowy na OCR skanu?

Otwórz przeglądarkowe narzędzie OCR i przeprowadź swój zeskanowany PDF przez powyższe pięć kroków.

Otwórz narzędzie →