Jak wyodrębnić obrazy z PDF — za pomocą narzędzia PDF Pro do wyodrębniania obrazów.
Ten poradnik jest dla marketingowca odzyskującego zdjęcie hero ze starej księgi marki, dla inżyniera wyciągającego diagramy z karty katalogowej dostawcy oraz dla każdego, kto potrzebuje prawdziwego zasobu graficznego, który już istnieje wewnątrz PDF — a nie jego rozmazanego zrzutu ekranu. Pięć kroków, by odzyskać oryginalne bajty osadzone przez autora w oryginalnej rozdzielczości.
Czego potrzebujesz
- Nowoczesna przeglądarka (Chrome, Edge, Firefox lub Safari z ostatnich dwóch lat)
- PDF, z którego chcesz wyodrębnić obrazy, na Twoim urządzeniu
- Świadomość, że grafiki wektorowej (logotypy rysowane ścieżkami) nie da się wyodrębnić jako rastra — jej tam po prostu nie ma w postaci pikseli
- Około dwóch minut — wliczając czas na odfiltrowanie ikon i szumu
Pięć kroków
Otwórz narzędzie w przeglądarce
Przejdź do narzędzia PDF Pro do wyodrębniania obrazów. Strona ładuje parser PDF w WebAssembly i działa w całości w Twojej karcie — bez ruchu do serwera, bez rejestracji, bez kolejki. Ponieważ wyodrębnianie odczytuje strumień obiektów PDF bezpośrednio, jest szybkie: dokument liczący 200 stron jest przetwarzany w sekundach, a nie minutach.
Upuść PDF na stronę
Przeciągnij plik. Ekstraktor przechodzi przez drzewo obiektów PDF, znajduje każdy XObject z podtypem Image i czyta leżący poniżej skompresowany strumień — zwykle DCTDecode (JPEG), FlateDecode (jak PNG), JBIG2 lub JPEG2000. Każdy obraz jest wymieniony z numerem strony, oryginalnymi wymiarami, przestrzenią barw i przybliżonym rozmiarem pliku.
Jeśli „logo", którego się spodziewasz, nie pojawia się, prawie na pewno jest to wektor — narysowany operatorami ścieżki PDF, a nie osadzony jako raster. Logotypów wektorowych nie da się wyodrębnić jako pikseli w oryginalnej jakości; trzeba je wyrenderować ponownie (w tym przypadku użyj konwertera na PNG z wysokim DPI).
Filtruj i wybierz to, czego naprawdę chcesz
Typowa broszura zawiera kilkadziesiąt drobnych osadzonych obrazów — glify punktorów, tekstury nagłówków, powtarzane wzory. Ustaw filtr minimalnego rozmiaru (300×300 to rozsądna wartość domyślna), aby ukryć szum i wydobyć tylko zasoby, które rozsądnie chciałbyś pobrać. Następnie kliknij, aby wybrać pojedyncze obrazy, lub po przefiltrowaniu użyj opcji „zaznacz wszystkie widoczne".
Wybierz: zachowaj oryginał lub normalizuj
Dwa tryby wyjścia. Zachowaj oryginał zapisuje każdy obraz z nienaruszonymi natywnymi bajtami — JPEG wychodzi jako .jpg z nietkniętymi oryginalnymi współczynnikami DCT; strumień PNG wychodzi jako .png. To właściwy wybór, gdy zasób jest celem: maksymalna wierność, zero ponownego kodowania. Normalizuj do PNG konwertuje wszystko do bezstratnego PNG; przydatne, gdy potrzebujesz spójnych typów plików lub gdy źródło używa egzotycznego kodowania (JBIG2, CMYK JPEG), z którym niektóre narzędzia w dalszej obróbce sobie nie poradzą.
Pobierz obrazy
Kliknij dowolną miniaturę, aby pobrać pojedynczy plik, lub naciśnij „Pobierz wszystko", aby otrzymać paczkę zip. Nazwy plików mają wzorzec nazwa-oryginalna-p007-img02.jpg, dzięki czemu możesz prześledzić każdy zasób aż do jego strony i pozycji w kolejności. Otwórz jeden z nich w przeglądarce obrazów; jeśli użyłeś trybu „zachowaj oryginał", blok metadanych (EXIF aparatu, profil ICC, znacznik czasu utworzenia) również jest nienaruszony. Cały proces odbył się w Twojej przeglądarce — nie istnieje serwerowa kopia ani Twojego PDF, ani Twoich zasobów.
Częste błędy i pułapki
- Mylenie wyodrębniania z rasteryzacją. Jeśli celem jest „oryginalne zdjęcie", użyj wyodrębniania. Jeśli celem jest „płaska migawka tego, jak wygląda strona", użyj konwertera PDF na JPG. Dwa różne zadania, dwa różne narzędzia.
- Szukanie logotypu wektorowego jako obrazu. Logo narysowane operatorami ścieżki PDF nie jest przechowywane jako piksele. Nie pojawi się na liście obrazów. Uczciwe opcje: ponowne wyrenderowanie obszaru strony z logo do PNG w wysokim DPI lub otwarcie PDF w Illustratorze i wyeksportowanie ścieżek.
- Pomijanie filtra rozmiaru. Korporacyjny raport na 200 stron może zawierać ponad 600 obiektów graficznych, w większości glify punktorów i powtarzane kafelki tła. Bez filtrowania inwentarz jest bezużyteczny.
- Normalizowanie, gdy nie ma takiej potrzeby. Normalizacja JPEG do PNG zwiększa rozmiar pliku 5–10-krotnie bez żadnego zysku w jakości wizualnej. Normalizuj tylko wtedy, gdy wymagają tego narzędzia w dalszej obróbce.
- Zapominanie, że istnieje CMYK. Pliki PDF przeznaczone do druku często osadzają JPEG w CMYK. Tryb „zachowaj oryginał" zachowa je jako JPEG CMYK; większość przeglądarek nie potrafi ich wyświetlić. Jeśli potrzebujesz szybkiego podglądu, użyj zamiast tego trybu „normalizuj do PNG" (konwertuje CMYK na sRGB).
Rozwiązywanie problemów
Ekstraktor pokazuje „znaleziono 0 obrazów", ale w PDF wyraźnie są grafiki.
Grafiki są wektorowe, nie rastrowe. PDF potrafi renderować kształty, ilustracje i wiele „logotypów" jako dane ścieżek — nie ma osadzonych zasobów pikselowych do wyodrębnienia. Aby uchwycić grafikę wektorową jako wysokiej jakości bitmapę, ponownie wyrenderuj stronę (lub jej wycinek) w 600 DPI za pomocą konwertera PNG.
Wyodrębniony obraz jest podzielony na wiele kafelków zamiast jednego zdjęcia.
Niektóre narzędzia tworzące pliki PDF (stare eksporty z InDesign, niektóre skanery) dzielą duże obrazy na pasy 256×256. Ekstraktor wymienia każdy kafelek jako osobny obraz. Rozwiązanie: użyj zamiast tego trybu rasteryzacji strony; otrzymasz scalony obraz kosztem jednego przebiegu ponownego kodowania.
Wyodrębnione JPEG-i wyglądają poprawnie w PDF, ale po otwarciu mają złe kolory.
Niemal zawsze niezgodność CMYK vs sRGB. PDF osadził JPEG w CMYK, a Twoja przeglądarka interpretuje go jako sRGB. Wyodrębnij ponownie z włączoną opcją „normalizuj do PNG" — konwerter zastosuje wówczas prawidłową konwersję barw na wyjściu.
Widzę, że ten sam obraz jest wymieniony pięć razy w PDF.
Albo ten sam obraz został umieszczony na pięciu stronach (bardzo powszechne — nagłówki, znaki wodne), albo PDF zduplikował strumień obrazu zamiast odwołać się do niego raz. Włącz opcję „deduplikuj identyczne strumienie" przed pobraniem; inwentarz zwinie się do jednej pozycji na unikalny zasób.
PDF jest chroniony hasłem. Czy nadal mogę wyodrębniać?
Tak, jeśli znasz hasło. Ekstraktor poprosi o nie po wczytaniu i odszyfruje strumień obiektów w Twojej przeglądarce; hasło pozostaje wyłącznie w pamięci i jest usuwane po zamknięciu karty. Jeśli nie znasz hasła, ekstraktor — jak każde uczciwe narzędzie — nie pomoże Ci go obejść.
Gotowy, by wyodrębnić?
Otwórz ekstraktor obrazów w przeglądarce i przeprowadź swój PDF przez powyższe pięć kroków.