Cómo aplicar OCR a un PDF escaneado: convertir imágenes de páginas en texto real con la herramienta de OCR de PDF Pro.
Un PDF escaneado parece un documento, pero para un ordenador es solo un montón de imágenes: no puedes seleccionar un nombre, buscar el número de una factura ni dejar que un lector de pantalla lo lea. El OCR es el paso que extrae texto real y seleccionable de esas imágenes. Esta guía recorre todo el proceso en cinco pasos, ejecutados por completo en la pestaña de tu navegador.
Lo que necesitarás
- Un navegador moderno (Chrome, Edge, Firefox o Safari de los últimos dos años)
- El PDF escaneado o de solo imagen al que quieres aplicar OCR, en tu dispositivo
- Una idea del idioma del documento: eso determina la precisión
- Unos minutos: las páginas de solo imagen requieren un reconocimiento más lento, y el primer uso de un idioma descarga un pequeño paquete
Los cinco pasos
Abre la herramienta de OCR
Ve a la herramienta de OCR de PDF Pro. La página carga con el motor de reconocimiento Tesseract incluido como WebAssembly, listo para ejecutarse en tu CPU. No hay registro, ni muro de confirmación por correo, ni contador diario de páginas, ni un punto de subida al que enviar tu escaneo.
Elige tu PDF escaneado
Arrastra el archivo a la zona de soltado o haz clic para explorar. La herramienta lo lee directamente desde tu disco y muestra una cuadrícula de miniaturas de cada página. Aquí es también donde la herramienta clasifica discretamente tus páginas en dos grupos: las que ya contienen una capa de texto real y las de solo imagen, que necesitarán el reconocimiento completo.
Elige el idioma de reconocimiento
Elige el idioma que coincide con tu documento. El motor reconoce idiomas de alfabeto latino, además de cirílico, griego y más; acertar con el idioma es la palanca de precisión más importante que tienes. La primera vez que usas un idioma, se descarga un pequeño archivo de datos (unos pocos MB) que luego queda en caché, así que la siguiente ejecución en ese idioma empieza de inmediato.
Ejecuta el OCR
Haz clic en Ejecutar OCR. La herramienta recorre tus páginas a dos velocidades: cualquier página que ya tenga una capa de texto real se extrae al instante y con exactitud, mientras que las páginas de solo imagen pasan por el reconocimiento más lento en tu CPU. Un indicador de progreso muestra qué página se está leyendo; un escaneo largo de páginas fotografiadas es el caso más lento, así que dale un momento.
Copia o guarda el texto extraído
Cuando termina la pasada, el resultado es texto real y seleccionable, no otra imagen de la página. Selecciónalo, cópialo al portapapeles o guárdalo, y luego pégalo en un documento, búscalo en él o pásalo a un traductor o un resumidor. Nada queda bloqueado tras un registro o una mejora de plan; el texto reconocido es tuyo en el momento en que aparece.
Copiar el texto extraídoErrores comunes y trampas
- Esperar perfección de una foto borrosa. La precisión del OCR está limitada por la calidad del escaneo. Un escaneo limpio, recto y de unos 300 DPI de texto impreso se reconoce muy bien; una foto de móvil tomada en ángulo y con poca luz, no. Vuelve a escanear antes de culpar a la herramienta.
- Elegir el idioma de reconocimiento equivocado. Ejecutar una pasada en inglés sobre un documento en cirílico produce disparates con aire de certeza. Haz coincidir el idioma con el documento: es la mejora de precisión más barata disponible.
- Intentar aplicar OCR a texto manuscrito. El motor está afinado para texto impreso. Las notas a mano, las firmas y la letra cursiva serán poco fiables por muy limpio que esté el escaneo.
- Suponer que la primera ejecución está rota porque va lenta. La primera vez que usas un idioma, se descarga un paquete de datos de unos pocos megabytes. Es un coste único: queda en caché y las ejecuciones posteriores en ese idioma empiezan de inmediato.
- Darle un archivo de imagen suelto. La herramienta acepta archivos PDF. Si solo tienes una foto, conviértela primero en un PDF —el conversor de JPG a PDF lo hace en tu navegador— y luego aplica el OCR al PDF resultante.
Resolución de problemas
¿Por qué algunas páginas terminaron al instante y otras tardaron mucho más?
Porque se gestionaron de forma distinta. Las páginas que ya contienen una capa de texto real se saltan el OCR por completo y pasan por una extracción rápida y exacta. Solo las páginas de solo imagen pasan por el reconocimiento más lento en tu CPU, así que un PDF mixto acelerará y se ralentizará de forma visible mientras trabaja.
El texto reconocido tiene errores. ¿Cómo mejoro la precisión?
La precisión depende casi por completo del escaneo. Vuelve a escanear nítido, recto y bien iluminado a unos 300 DPI, asegúrate de que el idioma de reconocimiento coincide con el documento y endereza las páginas inclinadas antes de empezar. El texto impreso en un escaneo limpio se reconoce muy bien; lo que perjudica es el poco contraste y el desenfoque.
¿Mi archivo escaneado se sube a un servidor?
No. El motor Tesseract se ejecuta dentro de tu navegador, así que el escaneo se lee directamente de tu dispositivo y nunca lo abandona. Si quieres confirmarlo, abre las DevTools, cambia a la pestaña Red y ejecuta el OCR: verás cero subidas de archivos.
Mi documento está en dos idiomas. ¿Cuál debo elegir?
Selecciona el idioma dominante del documento y añade la pasada opcional en inglés para captar el secundario. Para una página que sea realmente mitad y mitad, esa combinación suele superar a ejecutar cualquiera de los dos idiomas por separado.
¿Puede el navegador con un escaneo grande de varias páginas?
Sí: no hay un límite artificial de páginas, porque el reconocimiento cuesta tiempo de tu CPU, no una factura de servidor. El verdadero techo es la memoria de tu navegador, unos 500 MB en un portátil moderno. Un escaneo de varios cientos de páginas simplemente tarda más; en un móvil, quédate con documentos más cortos.
¿Listo para aplicar OCR a un escaneo?
Abre la herramienta de OCR en el navegador y pasa tu PDF escaneado por los cinco pasos anteriores.