Как сделать OCR отсканированного PDF — превращаем изображения страниц в настоящий текст с помощью инструмента OCR PDF Pro.
Отсканированный PDF выглядит как документ, но для компьютера это просто стопка картинок — нельзя выделить имя, найти номер счёта или дать прочитать его экранному диктору. OCR — это шаг, который извлекает из этих картинок настоящий, выделяемый текст. Это руководство проводит через всю задачу за пять шагов, выполняемых целиком во вкладке браузера.
Что понадобится
- Современный браузер (Chrome, Edge, Firefox или Safari за последние два года)
- Отсканированный или состоящий из изображений PDF, который нужно распознать, на вашем устройстве
- Понимание того, на каком языке документ, — именно это определяет точность
- Несколько минут — страницы-изображения требуют более медленного прохода распознавания, а при первом использовании языка скачивается небольшой пакет
Пять шагов
Откройте инструмент OCR
Перейдите к инструменту OCR PDF Pro. Страница загружается вместе с движком распознавания Tesseract в виде WebAssembly, готовым работать на вашем процессоре. Нет регистрации, нет стены с подтверждением по почте, нет суточного счётчика страниц — и нет конечной точки загрузки, куда отправлялся бы ваш скан.
Выберите отсканированный PDF
Перетащите файл в зону загрузки или нажмите для выбора. Инструмент читает его напрямую с диска и отображает сетку миниатюр каждой страницы. Здесь же инструмент незаметно сортирует страницы на две группы: страницы, которые уже содержат настоящий текстовый слой, и страницы-изображения, которым понадобится полный проход распознавания.
Выберите язык распознавания
Выберите язык, соответствующий вашему документу. Движок распознаёт языки латиницы, а также кириллицу, греческий и другие — и выбор правильного языка — это самый сильный рычаг точности, который у вас есть. При первом использовании конкретного языка скачивается небольшой файл данных (несколько МБ), который затем кэшируется, поэтому следующий запуск на этом языке начинается сразу.
Запустите OCR
Нажмите Запустить OCR. Инструмент проходит ваши страницы на двух скоростях: любая страница, у которой уже есть настоящий текстовый слой, извлекается мгновенно и точно, тогда как страницы-изображения проходят более медленное распознавание на вашем процессоре. Индикатор прогресса показывает, какая страница читается сейчас, — длинный скан сфотографированных страниц самый медленный случай, так что дайте ему немного времени.
Скопируйте или сохраните извлечённый текст
Когда проход завершится, результат — это настоящий, выделяемый текст, а не очередная картинка страницы. Выделите его, скопируйте в буфер обмена или сохраните, а затем вставьте в документ, выполните по нему поиск или передайте переводчику либо инструменту для краткого пересказа. Ничего не заперто за регистрацией или платным обновлением; распознанный текст — ваш с момента его появления.
Скопировать извлечённый текстЧастые ошибки и нюансы
- Ожидать совершенства от размытой фотографии. Точность OCR ограничена качеством скана. Чистый, ровный скан печатного текста примерно в 300 DPI распознаётся очень хорошо; снимок с телефона под углом при плохом освещении — нет. Пересканируйте, прежде чем винить инструмент.
- Выбрать неправильный язык распознавания. Проход на английском для документа на кириллице выдаёт уверенную бессмыслицу. Сопоставьте язык с документом — это самый дешёвый выигрыш в точности.
- Пытаться распознать рукописный текст. Движок настроен на печатный текст. Рукописные заметки, подписи и курсив будут ненадёжны, каким бы чистым ни был скан.
- Считать первый запуск сломанным из-за того, что он медленный. При первом использовании языка скачивается пакет данных в несколько мегабайт. Это разовая плата — он кэшируется, и последующие запуски на этом языке начинаются сразу.
- Подавать отдельный файл-изображение. Инструмент принимает файлы PDF. Если у вас только фотография, сначала поместите её в PDF — конвертер JPG в PDF делает это прямо в браузере, — а затем запустите OCR на полученном PDF.
Устранение неполадок
Почему некоторые страницы завершились мгновенно, а другие заняли намного больше?
Потому что обрабатывались по-разному. Страницы, которые уже содержат настоящий текстовый слой, полностью пропускают OCR и проходят быстрое, точное извлечение. Только настоящие страницы-изображения получают более медленный проход распознавания на вашем процессоре — поэтому смешанный PDF будет заметно ускоряться и замедляться по ходу работы.
В распознанном тексте ошибки. Как повысить точность?
Точность почти полностью зависит от скана. Пересканируйте резко, ровно и при хорошем освещении примерно в 300 DPI, убедитесь, что язык распознавания соответствует документу, и выровняйте наклонённые страницы перед началом. Печатный текст на чистом скане распознаётся очень хорошо; вредят низкий контраст и размытость.
Загружается ли мой отсканированный файл на сервер?
Нет. Движок Tesseract работает внутри вашего браузера, поэтому скан читается напрямую с устройства и никогда его не покидает. Чтобы убедиться в этом, откройте DevTools, перейдите на вкладку «Network» и запустите OCR — вы увидите ноль загрузок файлов.
Мой документ на двух языках. Какой выбрать?
Выберите доминирующий язык документа и добавьте дополнительный проход на английском, чтобы охватить второй. Для страницы, которая действительно наполовину на одном и наполовину на другом, такое сочетание обычно превосходит запуск любого из языков по отдельности.
Справится ли браузер с большим многостраничным сканом?
Да — искусственного ограничения на число страниц нет, потому что распознавание расходует время вашего процессора, а не счёт сервера. Настоящий потолок — память браузера, примерно 500 МБ на современном ноутбуке. Скан в несколько сотен страниц просто займёт больше времени; на телефоне ограничивайтесь документами покороче.
Готовы распознать скан?
Откройте браузерный инструмент OCR и проведите свой отсканированный PDF через пять шагов выше.