Início›Guias›OCR de um PDF digitalizado

Como fazer OCR de um PDF digitalizado — transformar imagens de páginas em texto real com a ferramenta de OCR da PDF Pro.

⏱ Leitura de 2 min 🎯 Fácil 🛠 OCR da PDF Pro

Um PDF digitalizado parece um documento, mas para um computador não passa de uma pilha de imagens — não consegue selecionar um nome, procurar um número de fatura nem deixar que um leitor de ecrã o leia. O OCR é o passo que volta a extrair texto real e selecionável dessas imagens. Este guia percorre todo o processo em cinco passos, executados inteiramente no separador do seu navegador.

Do que vai precisar

Um navegador moderno (Chrome, Edge, Firefox ou Safari dos últimos dois anos)
O PDF digitalizado ou só com imagens ao qual quer aplicar OCR, no seu dispositivo
Uma ideia do idioma do documento — é isso que determina a precisão
Alguns minutos — as páginas só com imagens exigem um reconhecimento mais lento, e a primeira utilização de um idioma descarrega um pequeno pacote

Os cinco passos

Abra a ferramenta de OCR

Vá à ferramenta de OCR da PDF Pro. A página carrega com o motor de reconhecimento Tesseract incluído como WebAssembly, pronto a executar no seu CPU. Não há registo, não há barreira de confirmação por e-mail, não há contador diário de páginas — e não há nenhum endpoint de upload para onde enviar a sua digitalização.

Escolha o seu PDF digitalizado

Arraste o ficheiro para a zona de largada ou clique para procurar. A ferramenta lê-o diretamente do disco e apresenta uma grelha de miniaturas de todas as páginas. É também aqui que a ferramenta separa discretamente as suas páginas em dois grupos: as páginas que já têm uma camada de texto real e as páginas só com imagens, que precisarão do reconhecimento completo.

Escolha o idioma de reconhecimento

Escolha o idioma que corresponde ao seu documento. O motor reconhece idiomas de alfabeto latino, além de cirílico, grego e mais — e escolher o idioma certo é a maior alavanca de precisão de que dispõe. Na primeira vez que utiliza um determinado idioma, descarrega-se um pequeno ficheiro de dados (alguns MB) que fica em cache, por isso a execução seguinte nesse idioma começa de imediato.

Execute o OCR

Clique em Executar OCR. A ferramenta percorre as suas páginas a duas velocidades: qualquer página que já tenha uma camada de texto real é extraída de forma instantânea e exata, enquanto as páginas só com imagens passam pelo reconhecimento mais lento no seu CPU. Um indicador de progresso mostra que página está a ser lida — uma digitalização longa de páginas fotografadas é o caso mais lento, por isso dê-lhe um momento.

Copie ou guarde o texto extraído

Quando o reconhecimento termina, o resultado é texto real e selecionável — não outra imagem da página. Selecione-o, copie-o para a área de transferência ou guarde-o, e depois cole-o num documento, pesquise-o ou entregue-o a um tradutor ou resumidor. Nada fica bloqueado atrás de um registo ou de uma atualização de plano; o texto reconhecido é seu no momento em que aparece.

Copiar texto extraído

Erros comuns e armadilhas

Esperar perfeição de uma fotografia desfocada. A precisão do OCR está limitada pela qualidade da digitalização. Uma digitalização limpa, direita e a cerca de 300 DPI de texto impresso é reconhecida muito bem; uma foto de telemóvel tirada em ângulo e com pouca luz não. Volte a digitalizar antes de culpar a ferramenta.
Escolher o idioma de reconhecimento errado. Aplicar um reconhecimento em inglês a um documento cirílico produz disparates convictos. Faça corresponder o idioma ao documento — é o ganho de precisão mais barato que existe.
Tentar fazer OCR de escrita manual. O motor está afinado para texto impresso. Notas manuscritas, assinaturas e letra cursiva serão pouco fiáveis por mais limpa que seja a digitalização.
Achar que a primeira execução está avariada por ser lenta. Na primeira vez que utiliza um idioma, descarrega-se um pacote de dados de alguns megabytes. É um custo único — fica em cache, e as execuções seguintes nesse idioma começam de imediato.
Fornecer-lhe um ficheiro de imagem solto. A ferramenta aceita ficheiros PDF. Se só tem uma foto, coloque-a primeiro num PDF — o conversor de JPG para PDF faz isso no seu navegador — e depois aplique OCR ao PDF resultante.

Resolução de problemas

Por que algumas páginas terminaram de imediato e outras demoraram muito mais?

Porque foram tratadas de forma diferente. As páginas que já contêm uma camada de texto real saltam o OCR por completo e passam por uma extração rápida e exata. Apenas as páginas verdadeiramente só com imagens passam pelo reconhecimento mais lento no seu CPU — por isso um PDF misto vai visivelmente acelerar e abrandar à medida que trabalha.

O texto reconhecido tem erros. Como melhoro a precisão?

A precisão depende quase inteiramente da digitalização. Volte a digitalizar nítido, direito e bem iluminado a cerca de 300 DPI, certifique-se de que o idioma de reconhecimento corresponde ao documento e endireite as páginas inclinadas antes de começar. Texto impresso numa digitalização limpa é reconhecido muito bem; o que prejudica é o baixo contraste e a desfocagem.

O meu ficheiro digitalizado é enviado para um servidor?

Não. O motor Tesseract é executado dentro do seu navegador, por isso a digitalização é lida diretamente do seu dispositivo e nunca o abandona. Se quiser confirmar, abra as DevTools, mude para o separador Network e execute o OCR — verá zero uploads de ficheiros.

O meu documento está em dois idiomas. Qual devo escolher?

Selecione o idioma dominante do documento e adicione o reconhecimento opcional em inglês para captar o secundário. Para uma página que é genuinamente meio-a-meio, essa combinação costuma superar a execução de qualquer um dos idiomas isoladamente.

O navegador aguenta uma digitalização grande com muitas páginas?

Sim — não há um limite artificial de páginas, porque o reconhecimento custa tempo do seu CPU, não uma fatura de servidor. O verdadeiro teto é a memória do seu navegador, cerca de 500 MB num portátil moderno. Uma digitalização de algumas centenas de páginas simplesmente demora mais; num telemóvel, fique por documentos mais curtos.

Pronto para fazer OCR de uma digitalização?

Abra a ferramenta de OCR no navegador e passe o seu PDF digitalizado pelos cinco passos acima.

Abrir a ferramenta →