Come fare l'OCR di un PDF scansionato — trasformare immagini di pagine in testo reale con lo strumento OCR di PDF Pro.
Un PDF scansionato sembra un documento, ma per un computer è solo una serie di immagini — non puoi selezionare un nome, cercare un numero di fattura o farlo leggere da uno screen reader. L'OCR è il passaggio che estrae il testo reale e selezionabile da quelle immagini. Questa guida illustra l'intero processo in cinque passaggi, eseguiti interamente nel tuo tab del browser.
Di cosa hai bisogno
- Un browser moderno (Chrome, Edge, Firefox o Safari degli ultimi due anni)
- Il PDF scansionato o solo-immagine che vuoi OCR-are, sul tuo dispositivo
- Un'idea della lingua del documento — questo influisce sulla precisione
- Qualche minuto — le pagine solo-immagine richiedono un passaggio di riconoscimento più lento e il primo utilizzo di una lingua scarica un piccolo pacchetto
I cinque passaggi
Apri lo strumento OCR
Vai allo strumento OCR di PDF Pro. La pagina si carica con il motore di riconoscimento Tesseract integrato come WebAssembly, pronto a girare sul tuo CPU. Non c'è registrazione, nessun muro di conferma e-mail, nessun contatore di pagine giornaliero — e nessun endpoint di caricamento a cui inviare la tua scansione.
Scegli il tuo PDF scansionato
Trascina il file nella zona di rilascio o clicca per sfogliare. Lo strumento lo legge direttamente dal tuo disco e mostra una griglia di miniature di ogni pagina. È anche qui che lo strumento divide silenziosamente le tue pagine in due gruppi: pagine che contengono già un livello di testo reale e pagine solo-immagine che necessiteranno del passaggio di riconoscimento completo.
Scegli la lingua di riconoscimento
Scegli la lingua che corrisponde al tuo documento. Il motore riconosce le lingue con scrittura latina e cirillica, greca e altre — e scegliere quella giusta è la principale leva di precisione che hai. La prima volta che usi una determinata lingua, viene scaricato un piccolo file di dati (qualche MB) che viene poi memorizzato nella cache, quindi le esecuzioni successive in quella lingua partono immediatamente.
Esegui l'OCR
Clicca Esegui OCR. Lo strumento processa le tue pagine a due velocità: le pagine che hanno già un livello di testo reale vengono estratte istantaneamente e con precisione, mentre le pagine solo-immagine passano attraverso il più lento processo di riconoscimento sul tuo CPU. Un indicatore di avanzamento mostra quale pagina è in elaborazione — una lunga scansione di pagine fotografate è il caso più lento, quindi abbi pazienza.
Copia o salva il testo estratto
Al termine del processo, il risultato è testo reale e selezionabile — non un'altra immagine della pagina. Selezionalo, copialo negli appunti o salvalo, poi incollalo in un documento, cercalo o passalo a un traduttore o un riassuntore. Nulla è bloccato dietro una registrazione o un aggiornamento; il testo riconosciuto è tuo nel momento in cui appare.
Copia testo estrattoErrori comuni e insidie
- Aspettarsi la perfezione da una foto sfocata. La precisione dell'OCR è limitata dalla qualità della scansione. Una scansione pulita, dritta, a ~300 DPI di testo stampato viene riconosciuta molto bene; un'istantanea scattata con il telefono in diagonale con scarsa illuminazione no. Rifai la scansione prima di incolpare lo strumento.
- Scegliere la lingua di riconoscimento sbagliata. Eseguire un passaggio in inglese su un documento in cirillico produce risultati privi di senso ma apparentemente sicuri. Abbina la lingua al documento — è il miglioramento di precisione più economico disponibile.
- Cercare di fare l'OCR della scrittura a mano. Il motore è ottimizzato per il testo stampato. Note scritte a mano, firme e corsivo saranno inaffidabili indipendentemente da quanto sia pulita la scansione.
- Pensare che la prima esecuzione sia rotta perché è lenta. La prima volta che usi una lingua, viene scaricato un pacchetto di dati di qualche megabyte. È un costo una-tantum — viene memorizzato nella cache e le esecuzioni successive in quella lingua partono immediatamente.
- Usare un file immagine singolo. Lo strumento accetta file PDF. Se hai solo una foto, inseriscila prima in un PDF — il convertitore JPG in PDF lo fa nel tuo browser — poi esegui l'OCR sul PDF risultante.
Risoluzione dei problemi
Perché alcune pagine finiscono istantaneamente e altre richiedono molto più tempo?
Perché vengono gestite diversamente. Le pagine che contengono già un livello di testo reale saltano completamente l'OCR e passano attraverso l'estrazione rapida e precisa. Solo le vere pagine solo-immagine ricevono il più lento passaggio di riconoscimento sul tuo CPU — quindi un PDF misto accelererà e rallenterà visibilmente mentre processa.
Il testo riconosciuto ha degli errori. Come posso migliorare la precisione?
La precisione dipende quasi interamente dalla scansione. Rifai la scansione in modo nitido, dritto e ben illuminato a circa 300 DPI, assicurati che la lingua di riconoscimento corrisponda al documento e raddrizza le pagine inclinate prima di iniziare. Il testo stampato su una scansione pulita viene riconosciuto molto bene; il basso contrasto e la sfocatura sono i principali ostacoli.
Il mio file scansionato viene caricato su un server?
No. Il motore Tesseract gira all'interno del tuo browser, quindi la scansione viene letta direttamente dal tuo dispositivo e non lo lascia mai. Se vuoi verificarlo, apri DevTools, passa alla scheda Rete e avvia l'OCR — vedrai zero caricamenti di file.
Il mio documento è in due lingue. Quale devo scegliere?
Seleziona la lingua dominante del documento e aggiungi il passaggio inglese opzionale per catturare quella secondaria. Per una pagina genuinamente metà e metà, quella combinazione di solito supera l'esecuzione con una sola lingua.
Il browser riesce a gestire una scansione multipagina grande?
Sì — non c'è un limite artificiale di pagine, perché il riconoscimento costa tempo CPU, non una fattura server. Il vero limite è la memoria del tuo browser, circa 500 MB su un laptop moderno. Una scansione di qualche centinaio di pagine richiede semplicemente più tempo; su un telefono, limita i documenti più brevi.
Pronto a fare l'OCR di una scansione?
Apri lo strumento OCR del browser ed esegui il tuo PDF scansionato attraverso i cinque passaggi descritti sopra.