Accueil›Guides›OCR d'un PDF scanné

Comment faire l'OCR d'un PDF scanné — transformer des images de pages en véritable texte avec l'outil OCR de PDF Pro.

⏱ 2 min de lecture 🎯 Facile 🛠 OCR PDF Pro

Un PDF scanné ressemble à un document, mais pour un ordinateur ce n'est qu'une pile d'images — impossible de sélectionner un nom, de rechercher un numéro de facture ou de le faire lire par un lecteur d'écran. L'OCR est l'étape qui extrait à nouveau du vrai texte sélectionnable de ces images. Ce guide déroule tout le travail en cinq étapes, exécutées entièrement dans votre onglet de navigateur.

Ce dont vous aurez besoin

Un navigateur récent (Chrome, Edge, Firefox ou Safari des deux dernières années)
Le PDF scanné ou en mode image que vous souhaitez traiter, sur votre appareil
Une idée de la langue du document — c'est elle qui conditionne la précision
Quelques minutes — les pages en mode image demandent une passe de reconnaissance plus lente, et la première utilisation d'une langue télécharge un petit pack

Les cinq étapes

Ouvrez l'outil OCR

Rendez-vous sur l'outil OCR de PDF Pro. La page se charge avec le moteur de reconnaissance Tesseract embarqué en WebAssembly, prêt à s'exécuter sur votre processeur. Aucune inscription, aucune confirmation par e-mail, aucun compteur de pages quotidien — et aucun point d'envoi vers lequel expédier votre scan.

Choisissez votre PDF scanné

Glissez le fichier sur la zone de dépôt ou cliquez pour parcourir. L'outil le lit directement depuis votre disque et affiche une grille de miniatures de chaque page. C'est aussi là que l'outil répartit discrètement vos pages en deux groupes : les pages qui possèdent déjà une vraie couche de texte, et les pages en mode image qui nécessiteront la passe de reconnaissance complète.

Choisissez la langue de reconnaissance

Sélectionnez la langue qui correspond à votre document. Le moteur reconnaît les langues en alphabet latin ainsi que le cyrillique, le grec et bien d'autres — et choisir la bonne langue est le levier de précision le plus puissant dont vous disposez. La première fois que vous utilisez une langue donnée, un petit fichier de données (quelques Mo) est téléchargé puis mis en cache, de sorte que l'exécution suivante dans cette langue démarre immédiatement.

Lancez l'OCR

Cliquez sur Lancer l'OCR. L'outil parcourt vos pages à deux vitesses : toute page possédant déjà une vraie couche de texte est extraite instantanément et fidèlement, tandis que les pages en mode image passent par la reconnaissance plus lente sur votre processeur. Un indicateur de progression montre quelle page est en cours de lecture — un long scan de pages photographiées est le cas le plus lent, alors laissez-lui un instant.

Copiez ou enregistrez le texte extrait

Une fois la passe terminée, le résultat est un véritable texte sélectionnable — et non une nouvelle image de la page. Sélectionnez-le, copiez-le dans le presse-papiers ou enregistrez-le, puis collez-le dans un document, recherchez-y un terme ou transmettez-le à un traducteur ou à un résumeur. Rien n'est verrouillé derrière une inscription ou une mise à niveau ; le texte reconnu est à vous dès qu'il apparaît.

Copier le texte extrait

Erreurs courantes et pièges

Attendre la perfection d'une photo floue. La précision de l'OCR est limitée par la qualité du scan. Un scan net, droit, à environ 300 DPI de texte imprimé se reconnaît très bien ; une photo prise au téléphone, de travers et sous une mauvaise lumière, non. Refaites le scan avant d'accuser l'outil.
Choisir la mauvaise langue de reconnaissance. Lancer une passe en anglais sur un document cyrillique produit un charabia plein d'assurance. Faites correspondre la langue au document — c'est le gain de précision le plus économique disponible.
Tenter l'OCR sur de l'écriture manuscrite. Le moteur est optimisé pour le texte imprimé. Les notes manuscrites, les signatures et l'écriture cursive resteront peu fiables, quelle que soit la netteté du scan.
Croire que la première exécution est défaillante parce qu'elle est lente. La première fois que vous utilisez une langue, un pack de données de quelques mégaoctets est téléchargé. C'est un coût unique — il est mis en cache, et les exécutions ultérieures dans cette langue démarrent immédiatement.
Lui fournir un simple fichier image. L'outil prend des fichiers PDF. Si vous n'avez qu'une photo, placez-la d'abord dans un PDF — le convertisseur JPG vers PDF le fait dans votre navigateur — puis exécutez l'OCR sur le PDF obtenu.

Dépannage

Pourquoi certaines pages se sont-elles terminées instantanément et d'autres bien plus lentement ?

Parce qu'elles ont été traitées différemment. Les pages contenant déjà une vraie couche de texte sautent entièrement l'OCR et passent par une extraction rapide et exacte. Seules les véritables pages en mode image subissent la passe de reconnaissance plus lente sur votre processeur — un PDF mixte accélère et ralentit donc visiblement au fil du travail.

Le texte reconnu contient des erreurs. Comment améliorer la précision ?

La précision dépend presque entièrement du scan. Refaites un scan net, droit et bien éclairé à environ 300 DPI, vérifiez que la langue de reconnaissance correspond au document, et redressez les pages inclinées avant de commencer. Le texte imprimé sur un scan propre se reconnaît très bien ; ce sont le faible contraste et le flou qui posent problème.

Mon fichier scanné est-il envoyé sur un serveur ?

Non. Le moteur Tesseract s'exécute dans votre navigateur : le scan est donc lu directement depuis votre appareil et ne le quitte jamais. Pour vous en assurer, ouvrez les DevTools, passez à l'onglet Réseau et lancez l'OCR — vous verrez zéro envoi de fichier.

Mon document est en deux langues. Laquelle dois-je choisir ?

Sélectionnez la langue dominante du document et ajoutez la passe facultative en anglais pour capter la langue secondaire. Pour une page véritablement moitié-moitié, cette combinaison surpasse généralement l'utilisation de l'une ou l'autre langue seule.

Le navigateur peut-il gérer un gros scan multipage ?

Oui — il n'y a aucune limite artificielle de pages, car la reconnaissance coûte du temps processeur, pas une facture de serveur. Le véritable plafond est la mémoire de votre navigateur, environ 500 Mo sur un ordinateur portable récent. Un scan de quelques centaines de pages prend simplement plus de temps ; sur un téléphone, tenez-vous-en aux documents plus courts.

Prêt à faire l'OCR d'un scan ?

Ouvrez l'outil OCR en ligne et faites passer votre PDF scanné par les cinq étapes ci-dessus.

Ouvrir l'outil →