Как извлечь изображения из PDF — с помощью экстрактора изображений PDF Pro.
Это руководство для маркетолога, возвращающего главное фото из старого брендбука, инженера, извлекающего диаграммы из даташита поставщика, и всех, кому нужен реальный графический ресурс, уже лежащий внутри PDF — а не его размытый скриншот. Пять шагов, чтобы восстановить оригинальные байты, встроенные автором, в оригинальном разрешении.
Что понадобится
- Современный браузер (Chrome, Edge, Firefox или Safari последних двух лет)
- PDF, из которого вы хотите извлечь изображения, на вашем устройстве
- Понимание того, что векторная графика (логотипы, нарисованные путями) не извлечётся как растр — она там не как пиксели
- Около двух минут — включая время на отфильтровывание шума от иконок
Пять шагов
Откройте браузерный экстрактор
Перейдите к экстрактору изображений PDF Pro. Страница загружает парсер PDF на WebAssembly и работает полностью в вашей вкладке — без обращения к серверу, без регистрации, без очереди. Поскольку извлечение читает поток объектов PDF напрямую, операция быстрая: 200-страничный документ обрабатывается за секунды, а не минуты.
Перетащите PDF на страницу
Перетащите файл. Экстрактор обходит дерево объектов PDF, находит каждый XObject подтипа Image и читает лежащий в основе сжатый поток — обычно DCTDecode (JPEG), FlateDecode (PNG-подобный), JBIG2 или JPEG2000. Каждое изображение перечисляется с номером его страницы, исходными размерами, цветовым пространством и приблизительным размером файла.
Если «логотип», который вы ожидали увидеть, не появился, он почти наверняка векторный — нарисованный операторами путей PDF, а не встроенный как растр. Векторные логотипы нельзя извлечь как пиксели в оригинальном качестве; их приходится перерендерить (для такого случая используйте конвертер PNG при высоком DPI).
Отфильтруйте и выберите то, что действительно нужно
В типичной брошюре десятки крошечных встроенных изображений — глифы маркеров, текстуры заголовков, повторяющиеся узоры. Установите фильтр минимального размера (300×300 — разумное значение по умолчанию), чтобы скрыть шум и оставить только ресурсы, которые вам действительно нужны. Затем кликайте, чтобы выбрать отдельные изображения, или используйте «выбрать все видимые» после фильтрации.
Выберите сохранение оригинала или нормализацию
Два режима вывода. Сохранить оригинал записывает каждое изображение с его исходными байтами в неизменном виде — JPEG выходит как .jpg с нетронутыми исходными DCT-коэффициентами, поток PNG выходит как .png. Это правильный выбор, когда цель — сам ресурс: максимальная точность, никакого повторного кодирования. Нормализовать в PNG конвертирует всё в PNG без потерь, полезно, когда нужны однородные типы файлов или источник использует экзотическую кодировку (JBIG2, CMYK JPEG), которую некоторые последующие инструменты не обрабатывают.
Скачайте изображения
Нажмите на любую миниатюру для скачивания одного файла, или «Скачать все» для zip. Имена файлов следуют шаблону originalname-p007-img02.jpg, чтобы вы могли отследить каждый ресурс до его страницы и порядкового номера. Откройте один в просмотрщике изображений; если вы использовали сохранение оригинала, блок метаданных (EXIF камеры, ICC-профиль, отметка времени создания) тоже цел. Вся операция произошла в вашем браузере — на серверной стороне нет копии вашего PDF или его ресурсов.
Частые ошибки и подводные камни
- Путать извлечение с растеризацией. Если цель — «оригинальное фото», используйте извлечение. Если цель — «плоский снимок того, как выглядит страница», используйте конвертер PDF-в-JPG. Две разные задачи, два разных инструмента.
- Искать векторный логотип как изображение. Логотип, нарисованный операторами путей PDF, не хранится как пиксели. Он не появится в списке изображений. Честные варианты: перерендерить область страницы с логотипом как PNG при высоком DPI или открыть PDF в Illustrator и экспортировать пути.
- Пропускать фильтр размера. Корпоративный отчёт на 200 страниц может содержать 600+ объектов-изображений, большая часть из которых — глифы маркеров и повторяющиеся фоновые плитки. Без фильтрации инвентарь непригоден к использованию.
- Нормализация, когда она не нужна. Нормализация JPEG в PNG раздувает размер файла в 5–10 раз без видимого выигрыша в качестве. Нормализуйте только тогда, когда этого требуют последующие инструменты.
- Забыть, что существует CMYK. PDF, предназначенные для печати, часто встраивают CMYK JPEG. Сохранение оригинала оставляет их как CMYK JPEG, которые большинство браузеров не могут отобразить. Если нужен быстрый предпросмотр, используйте вместо этого нормализацию в PNG (которая конвертирует CMYK в sRGB).
Устранение неполадок
Экстрактор говорит «найдено 0 изображений», но в PDF явно есть графика.
Графика векторная, а не растровая. PDF может отрисовывать фигуры, иллюстрации и многие «логотипы» как данные путей — там нет встроенного пиксельного ресурса для извлечения. Перерендерите страницу (или её обрезку) с помощью конвертера PNG при 600 DPI, чтобы захватить векторную графику как высококачественный битмап.
Извлечённое изображение разбито на много плиток вместо одной цельной картинки.
Некоторые инструменты создания PDF (старые экспорты InDesign, сканеры) разбивают большие изображения на полосы 256×256. Экстрактор перечислит каждую плитку как отдельное изображение. Решение: используйте режим растеризации страницы, который даст вам собранное визуальное представление ценой одного прохода перекодирования.
Извлечённые JPEG выглядят правильно в PDF, но имеют неверные цвета при открытии.
Почти всегда это рассогласование CMYK и sRGB. PDF встроил CMYK JPEG, а ваш просмотрщик интерпретирует его как sRGB. Извлеките повторно с включённой нормализацией в PNG — конвертер применит правильное цветовое преобразование на выходе.
Я вижу одно и то же изображение в списке пять раз по PDF.
Либо одно и то же изображение размещено на пяти страницах (очень частая ситуация — заголовки, водяные знаки), либо PDF продублировал поток изображения вместо того, чтобы ссылаться на него один раз. Включите «дедуплицировать идентичные потоки» перед скачиванием, и инвентарь схлопнется в одну запись на уникальный ресурс.
PDF защищён паролем. Можно ли всё равно извлечь?
Да, если вы знаете пароль. Экстрактор запросит его при загрузке и расшифрует поток объектов в вашем браузере; пароль хранится только в памяти и удаляется при закрытии вкладки. Если вы не знаете пароль, экстрактор — как и любой честный инструмент — не поможет вам его обойти.
Готовы извлечь?
Откройте браузерный экстрактор изображений и проведите PDF через пять шагов выше.