Como fazer OCR de um PDF digitalizado — transformar imagens de páginas em texto real com a ferramenta de OCR da PDF Pro.
Um PDF digitalizado parece um documento, mas para um computador não passa de uma pilha de imagens — não consegue selecionar um nome, procurar um número de fatura nem deixar que um leitor de ecrã o leia. O OCR é o passo que volta a extrair texto real e selecionável dessas imagens. Este guia percorre todo o processo em cinco passos, executados inteiramente no separador do seu navegador.
Do que vai precisar
- Um navegador moderno (Chrome, Edge, Firefox ou Safari dos últimos dois anos)
- O PDF digitalizado ou só com imagens ao qual quer aplicar OCR, no seu dispositivo
- Uma ideia do idioma do documento — é isso que determina a precisão
- Alguns minutos — as páginas só com imagens exigem um reconhecimento mais lento, e a primeira utilização de um idioma descarrega um pequeno pacote
Os cinco passos
Abra a ferramenta de OCR
Vá à ferramenta de OCR da PDF Pro. A página carrega com o motor de reconhecimento Tesseract incluído como WebAssembly, pronto a executar no seu CPU. Não há registo, não há barreira de confirmação por e-mail, não há contador diário de páginas — e não há nenhum endpoint de upload para onde enviar a sua digitalização.
Escolha o seu PDF digitalizado
Arraste o ficheiro para a zona de largada ou clique para procurar. A ferramenta lê-o diretamente do disco e apresenta uma grelha de miniaturas de todas as páginas. É também aqui que a ferramenta separa discretamente as suas páginas em dois grupos: as páginas que já têm uma camada de texto real e as páginas só com imagens, que precisarão do reconhecimento completo.
Escolha o idioma de reconhecimento
Escolha o idioma que corresponde ao seu documento. O motor reconhece idiomas de alfabeto latino, além de cirílico, grego e mais — e escolher o idioma certo é a maior alavanca de precisão de que dispõe. Na primeira vez que utiliza um determinado idioma, descarrega-se um pequeno ficheiro de dados (alguns MB) que fica em cache, por isso a execução seguinte nesse idioma começa de imediato.
Execute o OCR
Clique em Executar OCR. A ferramenta percorre as suas páginas a duas velocidades: qualquer página que já tenha uma camada de texto real é extraída de forma instantânea e exata, enquanto as páginas só com imagens passam pelo reconhecimento mais lento no seu CPU. Um indicador de progresso mostra que página está a ser lida — uma digitalização longa de páginas fotografadas é o caso mais lento, por isso dê-lhe um momento.
Copie ou guarde o texto extraído
Quando o reconhecimento termina, o resultado é texto real e selecionável — não outra imagem da página. Selecione-o, copie-o para a área de transferência ou guarde-o, e depois cole-o num documento, pesquise-o ou entregue-o a um tradutor ou resumidor. Nada fica bloqueado atrás de um registo ou de uma atualização de plano; o texto reconhecido é seu no momento em que aparece.
Copiar texto extraídoErros comuns e armadilhas
- Esperar perfeição de uma fotografia desfocada. A precisão do OCR está limitada pela qualidade da digitalização. Uma digitalização limpa, direita e a cerca de 300 DPI de texto impresso é reconhecida muito bem; uma foto de telemóvel tirada em ângulo e com pouca luz não. Volte a digitalizar antes de culpar a ferramenta.
- Escolher o idioma de reconhecimento errado. Aplicar um reconhecimento em inglês a um documento cirílico produz disparates convictos. Faça corresponder o idioma ao documento — é o ganho de precisão mais barato que existe.
- Tentar fazer OCR de escrita manual. O motor está afinado para texto impresso. Notas manuscritas, assinaturas e letra cursiva serão pouco fiáveis por mais limpa que seja a digitalização.
- Achar que a primeira execução está avariada por ser lenta. Na primeira vez que utiliza um idioma, descarrega-se um pacote de dados de alguns megabytes. É um custo único — fica em cache, e as execuções seguintes nesse idioma começam de imediato.
- Fornecer-lhe um ficheiro de imagem solto. A ferramenta aceita ficheiros PDF. Se só tem uma foto, coloque-a primeiro num PDF — o conversor de JPG para PDF faz isso no seu navegador — e depois aplique OCR ao PDF resultante.
Resolução de problemas
Por que algumas páginas terminaram de imediato e outras demoraram muito mais?
Porque foram tratadas de forma diferente. As páginas que já contêm uma camada de texto real saltam o OCR por completo e passam por uma extração rápida e exata. Apenas as páginas verdadeiramente só com imagens passam pelo reconhecimento mais lento no seu CPU — por isso um PDF misto vai visivelmente acelerar e abrandar à medida que trabalha.
O texto reconhecido tem erros. Como melhoro a precisão?
A precisão depende quase inteiramente da digitalização. Volte a digitalizar nítido, direito e bem iluminado a cerca de 300 DPI, certifique-se de que o idioma de reconhecimento corresponde ao documento e endireite as páginas inclinadas antes de começar. Texto impresso numa digitalização limpa é reconhecido muito bem; o que prejudica é o baixo contraste e a desfocagem.
O meu ficheiro digitalizado é enviado para um servidor?
Não. O motor Tesseract é executado dentro do seu navegador, por isso a digitalização é lida diretamente do seu dispositivo e nunca o abandona. Se quiser confirmar, abra as DevTools, mude para o separador Network e execute o OCR — verá zero uploads de ficheiros.
O meu documento está em dois idiomas. Qual devo escolher?
Selecione o idioma dominante do documento e adicione o reconhecimento opcional em inglês para captar o secundário. Para uma página que é genuinamente meio-a-meio, essa combinação costuma superar a execução de qualquer um dos idiomas isoladamente.
O navegador aguenta uma digitalização grande com muitas páginas?
Sim — não há um limite artificial de páginas, porque o reconhecimento custa tempo do seu CPU, não uma fatura de servidor. O verdadeiro teto é a memória do seu navegador, cerca de 500 MB num portátil moderno. Uma digitalização de algumas centenas de páginas simplesmente demora mais; num telemóvel, fique por documentos mais curtos.
Pronto para fazer OCR de uma digitalização?
Abra a ferramenta de OCR no navegador e passe o seu PDF digitalizado pelos cinco passos acima.