PDF ProGuide
  • EnglishEnglish
  • DeutschGerman
  • EspañolSpanish
  • FrançaisFrench
  • PolskiPolish
  • PortuguêsPortuguese
  • TürkçeTurkish
  • РусскийRussian
Open the tool
ГлавнаяРуководстваOCR отсканированного PDF

Как сделать OCR отсканированного PDF — превращаем изображения страниц в настоящий текст с помощью инструмента OCR PDF Pro.

Чтение 2 мин 🎯 Легко 🛠 PDF Pro OCR

Отсканированный PDF выглядит как документ, но для компьютера это просто стопка картинок — нельзя выделить имя, найти номер счёта или дать прочитать его экранному диктору. OCR — это шаг, который извлекает из этих картинок настоящий, выделяемый текст. Это руководство проводит через всю задачу за пять шагов, выполняемых целиком во вкладке браузера.

Что понадобится

Пять шагов

1

Откройте инструмент OCR

Перейдите к инструменту OCR PDF Pro. Страница загружается вместе с движком распознавания Tesseract в виде WebAssembly, готовым работать на вашем процессоре. Нет регистрации, нет стены с подтверждением по почте, нет суточного счётчика страниц — и нет конечной точки загрузки, куда отправлялся бы ваш скан.

2

Выберите отсканированный PDF

Перетащите файл в зону загрузки или нажмите для выбора. Инструмент читает его напрямую с диска и отображает сетку миниатюр каждой страницы. Здесь же инструмент незаметно сортирует страницы на две группы: страницы, которые уже содержат настоящий текстовый слой, и страницы-изображения, которым понадобится полный проход распознавания.

3

Выберите язык распознавания

Выберите язык, соответствующий вашему документу. Движок распознаёт языки латиницы, а также кириллицу, греческий и другие — и выбор правильного языка — это самый сильный рычаг точности, который у вас есть. При первом использовании конкретного языка скачивается небольшой файл данных (несколько МБ), который затем кэшируется, поэтому следующий запуск на этом языке начинается сразу.

4

Запустите OCR

Нажмите Запустить OCR. Инструмент проходит ваши страницы на двух скоростях: любая страница, у которой уже есть настоящий текстовый слой, извлекается мгновенно и точно, тогда как страницы-изображения проходят более медленное распознавание на вашем процессоре. Индикатор прогресса показывает, какая страница читается сейчас, — длинный скан сфотографированных страниц самый медленный случай, так что дайте ему немного времени.

5

Скопируйте или сохраните извлечённый текст

Когда проход завершится, результат — это настоящий, выделяемый текст, а не очередная картинка страницы. Выделите его, скопируйте в буфер обмена или сохраните, а затем вставьте в документ, выполните по нему поиск или передайте переводчику либо инструменту для краткого пересказа. Ничего не заперто за регистрацией или платным обновлением; распознанный текст — ваш с момента его появления.

Скопировать извлечённый текст

Частые ошибки и нюансы

Устранение неполадок

Почему некоторые страницы завершились мгновенно, а другие заняли намного больше?

Потому что обрабатывались по-разному. Страницы, которые уже содержат настоящий текстовый слой, полностью пропускают OCR и проходят быстрое, точное извлечение. Только настоящие страницы-изображения получают более медленный проход распознавания на вашем процессоре — поэтому смешанный PDF будет заметно ускоряться и замедляться по ходу работы.

В распознанном тексте ошибки. Как повысить точность?

Точность почти полностью зависит от скана. Пересканируйте резко, ровно и при хорошем освещении примерно в 300 DPI, убедитесь, что язык распознавания соответствует документу, и выровняйте наклонённые страницы перед началом. Печатный текст на чистом скане распознаётся очень хорошо; вредят низкий контраст и размытость.

Загружается ли мой отсканированный файл на сервер?

Нет. Движок Tesseract работает внутри вашего браузера, поэтому скан читается напрямую с устройства и никогда его не покидает. Чтобы убедиться в этом, откройте DevTools, перейдите на вкладку «Network» и запустите OCR — вы увидите ноль загрузок файлов.

Мой документ на двух языках. Какой выбрать?

Выберите доминирующий язык документа и добавьте дополнительный проход на английском, чтобы охватить второй. Для страницы, которая действительно наполовину на одном и наполовину на другом, такое сочетание обычно превосходит запуск любого из языков по отдельности.

Справится ли браузер с большим многостраничным сканом?

Да — искусственного ограничения на число страниц нет, потому что распознавание расходует время вашего процессора, а не счёт сервера. Настоящий потолок — память браузера, примерно 500 МБ на современном ноутбуке. Скан в несколько сотен страниц просто займёт больше времени; на телефоне ограничивайтесь документами покороче.

Готовы распознать скан?

Откройте браузерный инструмент OCR и проведите свой отсканированный PDF через пять шагов выше.

Открыть инструмент →

Все редакционные руководства