PDF Pro画像抽出ツールを使って、PDFから画像を抽出する方法。
このガイドは、古いブランドブックからヒーロー写真を取り戻すマーケター、ベンダーのデータシートから図表を取り出すエンジニア、そしてPDFの中にすでにある実際の画像アセットが必要な方(ぼやけたスクリーンショットではなく)向けです。著者が埋め込んだ元のバイトを元の解像度で回収する5つのステップを解説します。
必要なもの
- モダンなブラウザ(Chrome、Edge、Firefox、または過去2年以内のSafari)
- 画像を取り出したいPDFファイル(デバイス上にあるもの)
- ベクターアート(パスで描かれたロゴ)はラスターとして抽出できないという理解(ピクセルとして存在しないため)
- 約2分(アイコンのノイズをフィルタリングする時間を含む)
5つのステップ
ブラウザ内抽出ツールを開く
PDF Pro画像抽出ツールにアクセスしてください。このページはWebAssembly PDFパーサーを読み込み、タブ内で完全に動作します。サーバーへの往復なし、サインアップなし、待ち行列なし。抽出はPDFのオブジェクトストリームを直接読むため、処理は高速です。200ページのドキュメントが分秒ではなく数秒で処理されます。
PDFをページにドロップする
ファイルをドラッグしてください。抽出ツールがPDFのオブジェクトツリーを解析し、サブタイプがImageのすべてのXObjectを見つけ、基礎となる圧縮ストリームを読み込みます。通常DCTDecode(JPEG)、FlateDecode(PNGのような)、JBIG2、またはJPEG2000です。各画像はページ番号、元の寸法、カラースペース、おおよそのファイルサイズとともに一覧表示されます。
期待していた「ロゴ」が表示されない場合、それはほぼ確実にベクターです。ラスターとして埋め込まれているのではなく、PDFパス演算子で描かれています。ベクターロゴは元の品質でピクセルとして抽出できません。再レンダリングが必要です(その場合は高DPIでPNGコンバーターを使用してください)。
実際に必要なものをフィルタリングして選択する
一般的なパンフレットには、箇条書きのグリフ、ヘッダーテクスチャ、繰り返しパターンなど、何十もの小さな埋め込み画像があります。最小寸法フィルター(300×300が適切なデフォルトです)を設定してノイズを隠し、合理的に欲しいアセットのみを表示させてください。その後、個々の画像をクリックして選択するか、フィルタリング後に「すべて表示を選択」を使用してください。
オリジナル保持または正規化を選択する
2つの出力モードがあります。オリジナル保持は各画像をネイティブバイトのまま書き出します。JPEGは元のDCT係数を手付かずのまま.jpgとして出力され、PNGストリームは.pngとして出力されます。これはアセット自体が目的の場合に正しい選択です。最大の忠実度、再エンコードなし。PNGに正規化はすべてをロスレスPNGに変換します。一貫したファイルタイプが必要な場合や、ダウンストリームツールが処理できないエキゾチックエンコーディング(JBIG2、CMYK JPEG)をソースが使用している場合に便利です。
画像をダウンロードする
サムネイルをクリックして個別にダウンロードするか、「すべてダウンロード」をクリックしてZIPファイルを取得してください。ファイル名はoriginalname-p007-img02.jpgの形式で、各アセットをページと順序位置に追跡できます。画像ビューアで1つ開いてください。オリジナル保持を使用した場合、メタデータブロック(カメラのEXIF、ICCプロファイル、作成タイムスタンプ)も保持されています。操作はすべてブラウザ内で行われました。PDFやそのアセットのサーバー側コピーはありません。
よくある間違いと落とし穴
- 抽出とラスタライズを混同してしまう。目的が「元の写真」の場合は抽出を使用してください。目的が「ページの見た目のフラットなスナップショット」の場合はPDF→JPGコンバーターを使用してください。2つの異なる作業、2つの異なるツールです。
- ベクターロゴを画像として探してしまう。PDFパス演算子で描かれたロゴはピクセルとして保存されていません。画像リストには表示されません。正直な選択肢:ロゴのページ領域を高DPIのPNGとして再レンダリングするか、Illustratorでそのパスを開いてエクスポートしてください。
- サイズフィルターをスキップしてしまう。200ページの企業レポートには600以上の画像オブジェクトが含まれている場合があり、そのほとんどが箇条書きのグリフと繰り返しの背景タイルです。フィルタリングなしでは、インベントリは使い物になりません。
- 必要でないときに正規化してしまう。JPEGをPNGに正規化すると、目に見える品質の向上なしにファイルサイズが5〜10倍に膨らみます。ダウンストリームツールが必要とする場合のみ正規化してください。
- CMYKの存在を忘れてしまう。印刷向けのPDFにはCMYK JPEGが埋め込まれていることがよくあります。オリジナル保持はそれらをCMYK JPEGとして保持しますが、ほとんどのブラウザでは表示できません。クイックプレビューが必要な場合は、PNGに正規化を使用してください(CMYKをsRGBに変換します)。
トラブルシューティング
抽出ツールに「画像が0件見つかりました」と表示されますが、PDFには明らかにグラフィックがあります。
グラフィックはラスターではなくベクターです。PDFは形状、イラスト、多くの「ロゴ」をパスデータとしてレンダリングできます。抽出できる埋め込みピクセルアセットはありません。高品質のビットマップとしてベクターアートを取り込むには、600DPIでPNGコンバーターを使用してページ(またはそのトリミング)を再レンダリングしてください。
抽出された画像が1枚の全体ではなく、多くのタイルに分割されています。
一部のPDF作成ツール(古いInDesignエクスポート、スキャナー)は大きな画像を256×256のストリップにタイル状に分割します。抽出ツールは各タイルを別々の画像としてリストアップします。修正方法:ページをラスタライズするモードを使用してください。1回の再エンコードパスのコストで組み立てられたビジュアルが得られます。
抽出されたJPEGはPDFでは正しく見えますが、開くと色がおかしいです。
ほとんどの場合、CMYKとsRGBの不一致です。PDFにCMYK JPEGが埋め込まれており、ビューアがそれをsRGBとして解釈しています。「PNGに正規化」を有効にして再抽出してください。コンバーターが出力時に正しいカラー変換を適用します。
PDFの複数ページに同じ画像が5回リストアップされています。
同じ画像が5ページに配置されているか(ヘッダー、ウォーターマークでよくあります)、PDFが1回参照するのではなく画像ストリームを複製しています。ダウンロード前に「同一ストリームの重複を削除」を有効にすると、インベントリが一意のアセットごとに1つのエントリに集約されます。
PDFはパスワード保護されています。それでも抽出できますか?
はい、パスワードがわかっている場合は可能です。抽出ツールは読み込み時にパスワードを求め、ブラウザ内でオブジェクトストリームを復号します。パスワードはメモリにのみ保持され、タブを閉じると破棄されます。パスワードがわからない場合は、抽出ツールも誠実なツールと同様に、バイパスを手助けしません。
抽出する準備はできましたか?
ブラウザ内画像抽出ツールを開いて、上記の5ステップでPDFを処理してください。