Jak wykonać OCR zeskanowanego PDF — zamiana obrazów stron w prawdziwy tekst za pomocą narzędzia OCR PDF Pro.
Zeskanowany PDF wygląda jak dokument, lecz dla komputera jest jedynie stosem obrazków — nie zaznaczysz nazwiska, nie wyszukasz numeru faktury, nie odczyta go czytnik ekranu. OCR to krok, który wydobywa z tych obrazków prawdziwy, zaznaczalny tekst. Ten przewodnik prowadzi przez całą pracę w pięciu krokach, wykonywanych w całości w karcie przeglądarki.
Czego będziesz potrzebować
- Nowoczesnej przeglądarki (Chrome, Edge, Firefox lub Safari z ostatnich dwóch lat)
- Zeskanowanego lub czysto obrazkowego pliku PDF, który chcesz przetworzyć OCR, na swoim urządzeniu
- Wiedzy o tym, w jakim języku jest dokument — to decyduje o dokładności
- Kilku minut — strony czysto obrazkowe wymagają wolniejszego przebiegu rozpoznawania, a pierwsze użycie danego języka pobiera niewielki pakiet
Pięć kroków
Otwórz narzędzie OCR
Przejdź do narzędzia OCR PDF Pro. Strona ładuje się z silnikiem rozpoznawania Tesseract w postaci WebAssembly, gotowym do uruchomienia na Twoim procesorze. Nie ma rejestracji, ściany potwierdzania adresu e-mail, dziennego licznika stron — ani żadnego punktu wysyłki, do którego trafiłby Twój skan.
Wybierz swój zeskanowany PDF
Przeciągnij plik na obszar upuszczania lub kliknij, aby go wybrać. Narzędzie odczytuje go prosto z dysku i renderuje siatkę miniatur wszystkich stron. To również moment, w którym narzędzie po cichu dzieli strony na dwie grupy: strony, które już zawierają prawdziwą warstwę tekstu, oraz strony czysto obrazkowe, które będą wymagać pełnego przebiegu rozpoznawania.
Wybierz język rozpoznawania
Wybierz język odpowiadający Twojemu dokumentowi. Silnik rozpoznaje języki w alfabecie łacińskim, a także cyrylicę, grekę i inne — a wybór właściwego to największa dźwignia dokładności, jaką masz. Przy pierwszym użyciu danego języka pobiera się niewielki plik danych (kilka MB), który jest następnie zapisywany w pamięci podręcznej, więc kolejne uruchomienie w tym języku rusza natychmiast.
Uruchom OCR
Kliknij Uruchom OCR. Narzędzie przetwarza strony w dwóch tempach: każda strona, która ma już prawdziwą warstwę tekstu, jest wyodrębniana natychmiast i dokładnie, a strony czysto obrazkowe przechodzą wolniejszy przebieg rozpoznawania na Twoim procesorze. Wskaźnik postępu pokazuje, która strona jest właśnie odczytywana — długi skan sfotografowanych stron to najwolniejszy przypadek, więc daj mu chwilę.
Skopiuj lub zapisz wyodrębniony tekst
Gdy przebieg się zakończy, wynikiem jest prawdziwy, zaznaczalny tekst — a nie kolejny obraz strony. Zaznacz go, skopiuj do schowka albo zapisz, a następnie wklej do dokumentu, przeszukaj lub przekaż do tłumacza czy narzędzia podsumowującego. Nic nie jest zablokowane za rejestracją ani aktualizacją planu; rozpoznany tekst należy do Ciebie w chwili, w której się pojawia.
Skopiuj wyodrębniony tekstTypowe błędy i pułapki
- Oczekiwanie perfekcji od rozmytego zdjęcia. Dokładność OCR jest ograniczona jakością skanu. Czysty, prosty skan tekstu drukowanego w ~300 DPI rozpoznaje się bardzo dobrze; zdjęcie z telefonu zrobione pod kątem przy słabym świetle — nie. Zeskanuj ponownie, zanim obarczysz winą narzędzie.
- Wybranie niewłaściwego języka rozpoznawania. Uruchomienie przebiegu angielskiego na dokumencie w cyrylicy daje pewny siebie bełkot. Dopasuj język do dokumentu — to najtańszy sposób na poprawę dokładności.
- Próba OCR pisma odręcznego. Silnik jest dostrojony do tekstu drukowanego. Notatki odręczne, podpisy i pismo łączone będą zawodne, niezależnie od tego, jak czysty jest skan.
- Zakładanie, że pierwsze uruchomienie jest zepsute, bo jest wolne. Przy pierwszym użyciu języka pobiera się kilkumegabajtowy pakiet danych. To koszt jednorazowy — pakiet jest zapisywany w pamięci podręcznej, a kolejne uruchomienia w tym języku ruszają natychmiast.
- Podawanie luźnego pliku obrazu. Narzędzie przyjmuje pliki PDF. Jeśli masz tylko zdjęcie, najpierw umieść je w PDF — konwerter JPG na PDF zrobi to w Twojej przeglądarce — a potem uruchom OCR na powstałym PDF.
Rozwiązywanie problemów
Dlaczego niektóre strony skończyły się natychmiast, a inne trwały znacznie dłużej?
Ponieważ zostały potraktowane inaczej. Strony, które już zawierają prawdziwą warstwę tekstu, w ogóle pomijają OCR i przechodzą przez szybkie, dokładne wyodrębnianie. Tylko strony rzeczywiście czysto obrazkowe przechodzą wolniejszy przebieg rozpoznawania na Twoim procesorze — dlatego mieszany PDF będzie widocznie przyspieszać i zwalniać w trakcie pracy.
Rozpoznany tekst zawiera błędy. Jak poprawić dokładność?
Dokładność zależy niemal wyłącznie od skanu. Zeskanuj ponownie ostro, prosto i przy dobrym świetle, w okolicach 300 DPI, upewnij się, że język rozpoznawania odpowiada dokumentowi, i wyprostuj przekrzywione strony przed startem. Tekst drukowany na czystym skanie rozpoznaje się bardzo dobrze; szkodzą niski kontrast i rozmycie.
Czy mój zeskanowany plik jest wysyłany na serwer?
Nie. Silnik Tesseract działa wewnątrz Twojej przeglądarki, więc skan jest odczytywany prosto z urządzenia i nigdy go nie opuszcza. Jeśli chcesz to potwierdzić, otwórz DevTools, przejdź do karty Network (Sieć) i uruchom OCR — zobaczysz zero wysyłek plików.
Mój dokument jest w dwóch językach. Który wybrać?
Wybierz dominujący język dokumentu i dodaj opcjonalny przebieg angielski, aby wychwycić ten drugi. W przypadku strony rzeczywiście podzielonej po połowie ta kombinacja zwykle wypada lepiej niż uruchamianie któregokolwiek języka osobno.
Czy przeglądarka poradzi sobie z dużym, wielostronicowym skanem?
Tak — nie ma sztucznego limitu stron, ponieważ rozpoznawanie kosztuje czas Twojego procesora, a nie rachunek za serwer. Prawdziwym ograniczeniem jest pamięć przeglądarki, około 500 MB na nowoczesnym laptopie. Kilkusetstronicowy skan po prostu trwa dłużej; na telefonie trzymaj się krótszych dokumentów.
Gotowy na OCR skanu?
Otwórz przeglądarkowe narzędzie OCR i przeprowadź swój zeskanowany PDF przez powyższe pięć kroków.