Strona główna›Poradniki›Wyodrębnij obrazy z PDF

Jak wyodrębnić obrazy z PDF — za pomocą narzędzia PDF Pro do wyodrębniania obrazów.

⏱ 2 min czytania 🎯 Łatwe 🛠 PDF Pro – wyodrębnianie obrazów

Ten poradnik jest dla marketingowca odzyskującego zdjęcie hero ze starej księgi marki, dla inżyniera wyciągającego diagramy z karty katalogowej dostawcy oraz dla każdego, kto potrzebuje prawdziwego zasobu graficznego, który już istnieje wewnątrz PDF — a nie jego rozmazanego zrzutu ekranu. Pięć kroków, by odzyskać oryginalne bajty osadzone przez autora w oryginalnej rozdzielczości.

Czego potrzebujesz

Nowoczesna przeglądarka (Chrome, Edge, Firefox lub Safari z ostatnich dwóch lat)
PDF, z którego chcesz wyodrębnić obrazy, na Twoim urządzeniu
Świadomość, że grafiki wektorowej (logotypy rysowane ścieżkami) nie da się wyodrębnić jako rastra — jej tam po prostu nie ma w postaci pikseli
Około dwóch minut — wliczając czas na odfiltrowanie ikon i szumu

Pięć kroków

Otwórz narzędzie w przeglądarce

Przejdź do narzędzia PDF Pro do wyodrębniania obrazów. Strona ładuje parser PDF w WebAssembly i działa w całości w Twojej karcie — bez ruchu do serwera, bez rejestracji, bez kolejki. Ponieważ wyodrębnianie odczytuje strumień obiektów PDF bezpośrednio, jest szybkie: dokument liczący 200 stron jest przetwarzany w sekundach, a nie minutach.

Upuść PDF na stronę

Przeciągnij plik. Ekstraktor przechodzi przez drzewo obiektów PDF, znajduje każdy XObject z podtypem Image i czyta leżący poniżej skompresowany strumień — zwykle DCTDecode (JPEG), FlateDecode (jak PNG), JBIG2 lub JPEG2000. Każdy obraz jest wymieniony z numerem strony, oryginalnymi wymiarami, przestrzenią barw i przybliżonym rozmiarem pliku.

Jeśli „logo", którego się spodziewasz, nie pojawia się, prawie na pewno jest to wektor — narysowany operatorami ścieżki PDF, a nie osadzony jako raster. Logotypów wektorowych nie da się wyodrębnić jako pikseli w oryginalnej jakości; trzeba je wyrenderować ponownie (w tym przypadku użyj konwertera na PNG z wysokim DPI).

Filtruj i wybierz to, czego naprawdę chcesz

Typowa broszura zawiera kilkadziesiąt drobnych osadzonych obrazów — glify punktorów, tekstury nagłówków, powtarzane wzory. Ustaw filtr minimalnego rozmiaru (300×300 to rozsądna wartość domyślna), aby ukryć szum i wydobyć tylko zasoby, które rozsądnie chciałbyś pobrać. Następnie kliknij, aby wybrać pojedyncze obrazy, lub po przefiltrowaniu użyj opcji „zaznacz wszystkie widoczne".

Wybierz: zachowaj oryginał lub normalizuj

Dwa tryby wyjścia. Zachowaj oryginał zapisuje każdy obraz z nienaruszonymi natywnymi bajtami — JPEG wychodzi jako .jpg z nietkniętymi oryginalnymi współczynnikami DCT; strumień PNG wychodzi jako .png. To właściwy wybór, gdy zasób jest celem: maksymalna wierność, zero ponownego kodowania. Normalizuj do PNG konwertuje wszystko do bezstratnego PNG; przydatne, gdy potrzebujesz spójnych typów plików lub gdy źródło używa egzotycznego kodowania (JBIG2, CMYK JPEG), z którym niektóre narzędzia w dalszej obróbce sobie nie poradzą.

Pobierz obrazy

Kliknij dowolną miniaturę, aby pobrać pojedynczy plik, lub naciśnij „Pobierz wszystko", aby otrzymać paczkę zip. Nazwy plików mają wzorzec nazwa-oryginalna-p007-img02.jpg, dzięki czemu możesz prześledzić każdy zasób aż do jego strony i pozycji w kolejności. Otwórz jeden z nich w przeglądarce obrazów; jeśli użyłeś trybu „zachowaj oryginał", blok metadanych (EXIF aparatu, profil ICC, znacznik czasu utworzenia) również jest nienaruszony. Cały proces odbył się w Twojej przeglądarce — nie istnieje serwerowa kopia ani Twojego PDF, ani Twoich zasobów.

Pobierz 8 obrazów (zip)

Częste błędy i pułapki

Mylenie wyodrębniania z rasteryzacją. Jeśli celem jest „oryginalne zdjęcie", użyj wyodrębniania. Jeśli celem jest „płaska migawka tego, jak wygląda strona", użyj konwertera PDF na JPG. Dwa różne zadania, dwa różne narzędzia.
Szukanie logotypu wektorowego jako obrazu. Logo narysowane operatorami ścieżki PDF nie jest przechowywane jako piksele. Nie pojawi się na liście obrazów. Uczciwe opcje: ponowne wyrenderowanie obszaru strony z logo do PNG w wysokim DPI lub otwarcie PDF w Illustratorze i wyeksportowanie ścieżek.
Pomijanie filtra rozmiaru. Korporacyjny raport na 200 stron może zawierać ponad 600 obiektów graficznych, w większości glify punktorów i powtarzane kafelki tła. Bez filtrowania inwentarz jest bezużyteczny.
Normalizowanie, gdy nie ma takiej potrzeby. Normalizacja JPEG do PNG zwiększa rozmiar pliku 5–10-krotnie bez żadnego zysku w jakości wizualnej. Normalizuj tylko wtedy, gdy wymagają tego narzędzia w dalszej obróbce.
Zapominanie, że istnieje CMYK. Pliki PDF przeznaczone do druku często osadzają JPEG w CMYK. Tryb „zachowaj oryginał" zachowa je jako JPEG CMYK; większość przeglądarek nie potrafi ich wyświetlić. Jeśli potrzebujesz szybkiego podglądu, użyj zamiast tego trybu „normalizuj do PNG" (konwertuje CMYK na sRGB).

Rozwiązywanie problemów

Ekstraktor pokazuje „znaleziono 0 obrazów", ale w PDF wyraźnie są grafiki.

Grafiki są wektorowe, nie rastrowe. PDF potrafi renderować kształty, ilustracje i wiele „logotypów" jako dane ścieżek — nie ma osadzonych zasobów pikselowych do wyodrębnienia. Aby uchwycić grafikę wektorową jako wysokiej jakości bitmapę, ponownie wyrenderuj stronę (lub jej wycinek) w 600 DPI za pomocą konwertera PNG.

Wyodrębniony obraz jest podzielony na wiele kafelków zamiast jednego zdjęcia.

Niektóre narzędzia tworzące pliki PDF (stare eksporty z InDesign, niektóre skanery) dzielą duże obrazy na pasy 256×256. Ekstraktor wymienia każdy kafelek jako osobny obraz. Rozwiązanie: użyj zamiast tego trybu rasteryzacji strony; otrzymasz scalony obraz kosztem jednego przebiegu ponownego kodowania.

Wyodrębnione JPEG-i wyglądają poprawnie w PDF, ale po otwarciu mają złe kolory.

Niemal zawsze niezgodność CMYK vs sRGB. PDF osadził JPEG w CMYK, a Twoja przeglądarka interpretuje go jako sRGB. Wyodrębnij ponownie z włączoną opcją „normalizuj do PNG" — konwerter zastosuje wówczas prawidłową konwersję barw na wyjściu.

Widzę, że ten sam obraz jest wymieniony pięć razy w PDF.

Albo ten sam obraz został umieszczony na pięciu stronach (bardzo powszechne — nagłówki, znaki wodne), albo PDF zduplikował strumień obrazu zamiast odwołać się do niego raz. Włącz opcję „deduplikuj identyczne strumienie" przed pobraniem; inwentarz zwinie się do jednej pozycji na unikalny zasób.

PDF jest chroniony hasłem. Czy nadal mogę wyodrębniać?

Tak, jeśli znasz hasło. Ekstraktor poprosi o nie po wczytaniu i odszyfruje strumień obiektów w Twojej przeglądarce; hasło pozostaje wyłącznie w pamięci i jest usuwane po zamknięciu karty. Jeśli nie znasz hasła, ekstraktor — jak każde uczciwe narzędzie — nie pomoże Ci go obejść.

Gotowy, by wyodrębnić?

Otwórz ekstraktor obrazów w przeglądarce i przeprowadź swój PDF przez powyższe pięć kroków.

Otwórz narzędzie →