PDF ProGuide
  • EnglishEnglish
  • DeutschGerman
  • EspañolSpanish
  • FrançaisFrench
  • PolskiPolish
  • PortuguêsPortuguese
  • TürkçeTurkish
  • РусскийRussian
Open the tool
InicioGuíasOCR a un PDF escaneado

Cómo aplicar OCR a un PDF escaneado: convertir imágenes de páginas en texto real con la herramienta de OCR de PDF Pro.

2 min de lectura 🎯 Fácil 🛠 OCR de PDF Pro

Un PDF escaneado parece un documento, pero para un ordenador es solo un montón de imágenes: no puedes seleccionar un nombre, buscar el número de una factura ni dejar que un lector de pantalla lo lea. El OCR es el paso que extrae texto real y seleccionable de esas imágenes. Esta guía recorre todo el proceso en cinco pasos, ejecutados por completo en la pestaña de tu navegador.

Lo que necesitarás

Los cinco pasos

1

Abre la herramienta de OCR

Ve a la herramienta de OCR de PDF Pro. La página carga con el motor de reconocimiento Tesseract incluido como WebAssembly, listo para ejecutarse en tu CPU. No hay registro, ni muro de confirmación por correo, ni contador diario de páginas, ni un punto de subida al que enviar tu escaneo.

2

Elige tu PDF escaneado

Arrastra el archivo a la zona de soltado o haz clic para explorar. La herramienta lo lee directamente desde tu disco y muestra una cuadrícula de miniaturas de cada página. Aquí es también donde la herramienta clasifica discretamente tus páginas en dos grupos: las que ya contienen una capa de texto real y las de solo imagen, que necesitarán el reconocimiento completo.

3

Elige el idioma de reconocimiento

Elige el idioma que coincide con tu documento. El motor reconoce idiomas de alfabeto latino, además de cirílico, griego y más; acertar con el idioma es la palanca de precisión más importante que tienes. La primera vez que usas un idioma, se descarga un pequeño archivo de datos (unos pocos MB) que luego queda en caché, así que la siguiente ejecución en ese idioma empieza de inmediato.

4

Ejecuta el OCR

Haz clic en Ejecutar OCR. La herramienta recorre tus páginas a dos velocidades: cualquier página que ya tenga una capa de texto real se extrae al instante y con exactitud, mientras que las páginas de solo imagen pasan por el reconocimiento más lento en tu CPU. Un indicador de progreso muestra qué página se está leyendo; un escaneo largo de páginas fotografiadas es el caso más lento, así que dale un momento.

5

Copia o guarda el texto extraído

Cuando termina la pasada, el resultado es texto real y seleccionable, no otra imagen de la página. Selecciónalo, cópialo al portapapeles o guárdalo, y luego pégalo en un documento, búscalo en él o pásalo a un traductor o un resumidor. Nada queda bloqueado tras un registro o una mejora de plan; el texto reconocido es tuyo en el momento en que aparece.

Copiar el texto extraído

Errores comunes y trampas

Resolución de problemas

¿Por qué algunas páginas terminaron al instante y otras tardaron mucho más?

Porque se gestionaron de forma distinta. Las páginas que ya contienen una capa de texto real se saltan el OCR por completo y pasan por una extracción rápida y exacta. Solo las páginas de solo imagen pasan por el reconocimiento más lento en tu CPU, así que un PDF mixto acelerará y se ralentizará de forma visible mientras trabaja.

El texto reconocido tiene errores. ¿Cómo mejoro la precisión?

La precisión depende casi por completo del escaneo. Vuelve a escanear nítido, recto y bien iluminado a unos 300 DPI, asegúrate de que el idioma de reconocimiento coincide con el documento y endereza las páginas inclinadas antes de empezar. El texto impreso en un escaneo limpio se reconoce muy bien; lo que perjudica es el poco contraste y el desenfoque.

¿Mi archivo escaneado se sube a un servidor?

No. El motor Tesseract se ejecuta dentro de tu navegador, así que el escaneo se lee directamente de tu dispositivo y nunca lo abandona. Si quieres confirmarlo, abre las DevTools, cambia a la pestaña Red y ejecuta el OCR: verás cero subidas de archivos.

Mi documento está en dos idiomas. ¿Cuál debo elegir?

Selecciona el idioma dominante del documento y añade la pasada opcional en inglés para captar el secundario. Para una página que sea realmente mitad y mitad, esa combinación suele superar a ejecutar cualquiera de los dos idiomas por separado.

¿Puede el navegador con un escaneo grande de varias páginas?

Sí: no hay un límite artificial de páginas, porque el reconocimiento cuesta tiempo de tu CPU, no una factura de servidor. El verdadero techo es la memoria de tu navegador, unos 500 MB en un portátil moderno. Un escaneo de varios cientos de páginas simplemente tarda más; en un móvil, quédate con documentos más cortos.

¿Listo para aplicar OCR a un escaneo?

Abre la herramienta de OCR en el navegador y pasa tu PDF escaneado por los cinco pasos anteriores.

Abrir la herramienta →

Todas las guías editoriales