PDF ProGuide
  • EnglishEnglish
  • DeutschGerman
  • EspañolSpanish
  • FrançaisFrench
  • PolskiPolish
  • PortuguêsPortuguese
  • TürkçeTurkish
  • РусскийRussian
Open the tool
InícioGuiasOCR de um PDF digitalizado

Como fazer OCR de um PDF digitalizado — transformar imagens de páginas em texto real com a ferramenta de OCR da PDF Pro.

Leitura de 2 min 🎯 Fácil 🛠 OCR da PDF Pro

Um PDF digitalizado parece um documento, mas para um computador não passa de uma pilha de imagens — não consegue selecionar um nome, procurar um número de fatura nem deixar que um leitor de ecrã o leia. O OCR é o passo que volta a extrair texto real e selecionável dessas imagens. Este guia percorre todo o processo em cinco passos, executados inteiramente no separador do seu navegador.

Do que vai precisar

Os cinco passos

1

Abra a ferramenta de OCR

Vá à ferramenta de OCR da PDF Pro. A página carrega com o motor de reconhecimento Tesseract incluído como WebAssembly, pronto a executar no seu CPU. Não há registo, não há barreira de confirmação por e-mail, não há contador diário de páginas — e não há nenhum endpoint de upload para onde enviar a sua digitalização.

2

Escolha o seu PDF digitalizado

Arraste o ficheiro para a zona de largada ou clique para procurar. A ferramenta lê-o diretamente do disco e apresenta uma grelha de miniaturas de todas as páginas. É também aqui que a ferramenta separa discretamente as suas páginas em dois grupos: as páginas que já têm uma camada de texto real e as páginas só com imagens, que precisarão do reconhecimento completo.

3

Escolha o idioma de reconhecimento

Escolha o idioma que corresponde ao seu documento. O motor reconhece idiomas de alfabeto latino, além de cirílico, grego e mais — e escolher o idioma certo é a maior alavanca de precisão de que dispõe. Na primeira vez que utiliza um determinado idioma, descarrega-se um pequeno ficheiro de dados (alguns MB) que fica em cache, por isso a execução seguinte nesse idioma começa de imediato.

4

Execute o OCR

Clique em Executar OCR. A ferramenta percorre as suas páginas a duas velocidades: qualquer página que já tenha uma camada de texto real é extraída de forma instantânea e exata, enquanto as páginas só com imagens passam pelo reconhecimento mais lento no seu CPU. Um indicador de progresso mostra que página está a ser lida — uma digitalização longa de páginas fotografadas é o caso mais lento, por isso dê-lhe um momento.

5

Copie ou guarde o texto extraído

Quando o reconhecimento termina, o resultado é texto real e selecionável — não outra imagem da página. Selecione-o, copie-o para a área de transferência ou guarde-o, e depois cole-o num documento, pesquise-o ou entregue-o a um tradutor ou resumidor. Nada fica bloqueado atrás de um registo ou de uma atualização de plano; o texto reconhecido é seu no momento em que aparece.

Copiar texto extraído

Erros comuns e armadilhas

Resolução de problemas

Por que algumas páginas terminaram de imediato e outras demoraram muito mais?

Porque foram tratadas de forma diferente. As páginas que já contêm uma camada de texto real saltam o OCR por completo e passam por uma extração rápida e exata. Apenas as páginas verdadeiramente só com imagens passam pelo reconhecimento mais lento no seu CPU — por isso um PDF misto vai visivelmente acelerar e abrandar à medida que trabalha.

O texto reconhecido tem erros. Como melhoro a precisão?

A precisão depende quase inteiramente da digitalização. Volte a digitalizar nítido, direito e bem iluminado a cerca de 300 DPI, certifique-se de que o idioma de reconhecimento corresponde ao documento e endireite as páginas inclinadas antes de começar. Texto impresso numa digitalização limpa é reconhecido muito bem; o que prejudica é o baixo contraste e a desfocagem.

O meu ficheiro digitalizado é enviado para um servidor?

Não. O motor Tesseract é executado dentro do seu navegador, por isso a digitalização é lida diretamente do seu dispositivo e nunca o abandona. Se quiser confirmar, abra as DevTools, mude para o separador Network e execute o OCR — verá zero uploads de ficheiros.

O meu documento está em dois idiomas. Qual devo escolher?

Selecione o idioma dominante do documento e adicione o reconhecimento opcional em inglês para captar o secundário. Para uma página que é genuinamente meio-a-meio, essa combinação costuma superar a execução de qualquer um dos idiomas isoladamente.

O navegador aguenta uma digitalização grande com muitas páginas?

Sim — não há um limite artificial de páginas, porque o reconhecimento custa tempo do seu CPU, não uma fatura de servidor. O verdadeiro teto é a memória do seu navegador, cerca de 500 MB num portátil moderno. Uma digitalização de algumas centenas de páginas simplesmente demora mais; num telemóvel, fique por documentos mais curtos.

Pronto para fazer OCR de uma digitalização?

Abra a ferramenta de OCR no navegador e passe o seu PDF digitalizado pelos cinco passos acima.

Abrir a ferramenta →

Todos os guias editoriais