PDF ProGuide
  • EnglishEnglish
  • DeutschGerman
  • EspañolSpanish
  • FrançaisFrench
  • PolskiPolish
  • PortuguêsPortuguese
  • TürkçeTurkish
  • РусскийRussian
Open the tool
AccueilGuidesOCR d'un PDF scanné

Comment faire l'OCR d'un PDF scanné — transformer des images de pages en véritable texte avec l'outil OCR de PDF Pro.

2 min de lecture 🎯 Facile 🛠 OCR PDF Pro

Un PDF scanné ressemble à un document, mais pour un ordinateur ce n'est qu'une pile d'images — impossible de sélectionner un nom, de rechercher un numéro de facture ou de le faire lire par un lecteur d'écran. L'OCR est l'étape qui extrait à nouveau du vrai texte sélectionnable de ces images. Ce guide déroule tout le travail en cinq étapes, exécutées entièrement dans votre onglet de navigateur.

Ce dont vous aurez besoin

Les cinq étapes

1

Ouvrez l'outil OCR

Rendez-vous sur l'outil OCR de PDF Pro. La page se charge avec le moteur de reconnaissance Tesseract embarqué en WebAssembly, prêt à s'exécuter sur votre processeur. Aucune inscription, aucune confirmation par e-mail, aucun compteur de pages quotidien — et aucun point d'envoi vers lequel expédier votre scan.

2

Choisissez votre PDF scanné

Glissez le fichier sur la zone de dépôt ou cliquez pour parcourir. L'outil le lit directement depuis votre disque et affiche une grille de miniatures de chaque page. C'est aussi là que l'outil répartit discrètement vos pages en deux groupes : les pages qui possèdent déjà une vraie couche de texte, et les pages en mode image qui nécessiteront la passe de reconnaissance complète.

3

Choisissez la langue de reconnaissance

Sélectionnez la langue qui correspond à votre document. Le moteur reconnaît les langues en alphabet latin ainsi que le cyrillique, le grec et bien d'autres — et choisir la bonne langue est le levier de précision le plus puissant dont vous disposez. La première fois que vous utilisez une langue donnée, un petit fichier de données (quelques Mo) est téléchargé puis mis en cache, de sorte que l'exécution suivante dans cette langue démarre immédiatement.

4

Lancez l'OCR

Cliquez sur Lancer l'OCR. L'outil parcourt vos pages à deux vitesses : toute page possédant déjà une vraie couche de texte est extraite instantanément et fidèlement, tandis que les pages en mode image passent par la reconnaissance plus lente sur votre processeur. Un indicateur de progression montre quelle page est en cours de lecture — un long scan de pages photographiées est le cas le plus lent, alors laissez-lui un instant.

5

Copiez ou enregistrez le texte extrait

Une fois la passe terminée, le résultat est un véritable texte sélectionnable — et non une nouvelle image de la page. Sélectionnez-le, copiez-le dans le presse-papiers ou enregistrez-le, puis collez-le dans un document, recherchez-y un terme ou transmettez-le à un traducteur ou à un résumeur. Rien n'est verrouillé derrière une inscription ou une mise à niveau ; le texte reconnu est à vous dès qu'il apparaît.

Copier le texte extrait

Erreurs courantes et pièges

Dépannage

Pourquoi certaines pages se sont-elles terminées instantanément et d'autres bien plus lentement ?

Parce qu'elles ont été traitées différemment. Les pages contenant déjà une vraie couche de texte sautent entièrement l'OCR et passent par une extraction rapide et exacte. Seules les véritables pages en mode image subissent la passe de reconnaissance plus lente sur votre processeur — un PDF mixte accélère et ralentit donc visiblement au fil du travail.

Le texte reconnu contient des erreurs. Comment améliorer la précision ?

La précision dépend presque entièrement du scan. Refaites un scan net, droit et bien éclairé à environ 300 DPI, vérifiez que la langue de reconnaissance correspond au document, et redressez les pages inclinées avant de commencer. Le texte imprimé sur un scan propre se reconnaît très bien ; ce sont le faible contraste et le flou qui posent problème.

Mon fichier scanné est-il envoyé sur un serveur ?

Non. Le moteur Tesseract s'exécute dans votre navigateur : le scan est donc lu directement depuis votre appareil et ne le quitte jamais. Pour vous en assurer, ouvrez les DevTools, passez à l'onglet Réseau et lancez l'OCR — vous verrez zéro envoi de fichier.

Mon document est en deux langues. Laquelle dois-je choisir ?

Sélectionnez la langue dominante du document et ajoutez la passe facultative en anglais pour capter la langue secondaire. Pour une page véritablement moitié-moitié, cette combinaison surpasse généralement l'utilisation de l'une ou l'autre langue seule.

Le navigateur peut-il gérer un gros scan multipage ?

Oui — il n'y a aucune limite artificielle de pages, car la reconnaissance coûte du temps processeur, pas une facture de serveur. Le véritable plafond est la mémoire de votre navigateur, environ 500 Mo sur un ordinateur portable récent. Un scan de quelques centaines de pages prend simplement plus de temps ; sur un téléphone, tenez-vous-en aux documents plus courts.

Prêt à faire l'OCR d'un scan ?

Ouvrez l'outil OCR en ligne et faites passer votre PDF scanné par les cinq étapes ci-dessus.

Ouvrir l'outil →

Tous les guides éditoriaux