Structure-aware summarization

A PDF content summarizer that keeps the outlinesection by section, not flattened into a blob.

多くの要約ツールはすべてを連結して文書の構造を失った一段落を返します。このツールはAbstract・Methods・Results・条項・章を個別に検出し — その後、元の階層が維持されるようにセクションごとにTL;DRを書きます。

account_treeHierarchical output format_list_bulletedPer-section TL;DR linkSection-scoped citations descriptionDOCX / MD / PDF export

Structure preserved, not flattened.

40ページのPDFは一つのことの40ページではありません — それはアウトラインです。要約ツールもアウトラインを返すべきです。

ほとんどのLLM要約ツールはPDFをチャンクに分割し、各チャンクを要約して、結果を一つの散文段落に連結します。その出力はツイートには便利ですが、次のような文書には役に立ちません。 have shape — research papers, contracts, board reports, multi-chapter handbooks.

構造認識型の要約ツールは代わりに文書の実際の階層を最初に検出します — Abstract・Methods・Results・Discussion、またはClause 1・Clause 2・Clause 3 — そして書き出します one TL;DR per detected section。出力自体がアウトラインであり、ソースを反映しています。

何かを見つけなければならないときに違いが重要です。フラットなブロブでは価格に関する部分を見つけるために要約全体を再読します。セクションごとのTL;DRでは「Clause 4 · Pricing」に直接ジャンプし、ソース段落へのリンク付きの2行の回答を見つけます。

blockFlat blob output
account_treeSection-aware
articleAbstract
scienceMethods
analyticsResults
forumDiscussion

Built for documents with shape.

PDFに章・条項・行項目・議題ブロックがある場合、セクションごとの要約はフラットなものが破壊するものを保持します。

science
Research papers
IMRAD structure preserved — Abstract, Introduction, Methods, Results, Discussion each get their own TL;DR with section-scoped citations.
IMRAD
gavel
Contracts
各条項(期間、価格設定、責任、解除)は独立して要約されるため、義務を条項ごとに確認できます。
Per-clause
balance
Legal briefs
事実の陳述、主張 I、主張 II、結論 — 単一の文章に統合せず、独立したブロックとして保持されます。
Sectioned
trending_up
Financial reports
売上高、営業費用、キャッシュフロー、リスク要因 — 各項目は根拠となる数値とともに要約されます。
Line items
groups
Meeting transcripts
Agenda items become sections — each gets a decision-and-action TL;DR, so attendees see what was concluded per topic.
Per-agenda

How section detection works.

見出しの検出は、言語的な問題である前にタイポグラフィの問題です。パイプラインはデザイナーのようにページを読み取り、編集者のように要約します。

1
PDF parsing
位置メタデータとともにテキスト層を抽出 — すべてのスパンに x, y, fontSize, weight, and page。スキャンされたPDFは先にOCR処理されるため、同じメタデータが存在します。
2
Heading detection
Cluster spans by typography: bigger font + bolder weight + leading whitespace = heading candidate. Numbering patterns (1.1.2, I.A) confirm hierarchy depth.
3
Semantic block grouping
本文の段落は直前の最も近い見出しに割り当てられます。明示的な見出しのないPDFでは、埋め込みがトピックの変化を検出してブロックラベルを生成します。
4
Per-section abstractive summary
各ブロックはセクション範囲のコンテキストで独立して要約され、セクション間の混在はありません。引用はブロック内の段落レベルで付与されます。

Output formats — pick the shape you need.

Same hierarchical extraction, three rendering modes. Switch between them without re-summarizing.

format_list_bulleted
Bullet TL;DR
セクションごとに3〜5つの箇条書き。スキャン、ブリーフィング資料、トピック別に流し読みが必要なフォローアップメールのダイジェストに最適です。
Methods
Two-stage retrieval pipeline
N=412 clinical PDFs sampled
ROUGE-L primary metric
subject
Executive paragraph
セクションごとに簡潔な1段落。文章を読む読者向けに書かれ、発見事項間の論理的なつながりを保持します。メモやレポートに役立ちます。
Results
セクション対応バリアントは、フラットなベースラインをROUGE-Lスコアで18ポイント上回り、ホールドアウト文書でのセクション帰属精度96%を達成しました。
account_tree
Outline / mind-map
セクションとサブセクションの折りたたみ可能なツリー表示 — まずナビゲートしてから読みたい長いPDFに最適です。
Paper
Abstract
Methods
Sampling
Pipeline
Results

What you get vs a flat summary.

Both produce text. Only one preserves the document.

Flat blobTypical summarizer
文書全体を1段落で
  • closeLoses the outline. 方法と考察が同じ文章の流れに混在してしまいます。
  • closeCross-section citations. 結果からの主張が、方法のセクションのパッセージに帰属される可能性があります。
  • closeNo navigation. トピックを見つけるために要約を読み直す必要があります。
  • closeLength collapses meaning. A 40-page contract becomes 200 words; clauses disappear.
  • closeHard to export structurally. The Word doc has no headings.
Section-awareThis tool
One TL;DR per detected section, hierarchy intact
  • checkOutline preserved. Each Abstract, Method, clause, or chapter has its own block.
  • checkSection-scoped citations. A bullet in Methods cites only Methods passages.
  • checkJump to topic. 「第4条」をクリックすると、要約全体を読み直す代わりに60語で内容を確認できます。
  • checkLength adapts to depth. Long sections get longer summaries automatically.
  • checkStructural export. H1/H2スタイルのDOCX、適切な見出しレベルのMarkdown。

When section-aware actually matters.

A two-page memo doesn't need this. A forty-page contract does.

menu_book
Long technical PDFs
40ページ以上で明確なフェーズ(背景、設計、評価)がある文書では、フラットな要約はフェーズを1つの区別のない段落に圧縮し、トピック別に流し読む機能が失われます。
group
Multi-author papers
各執筆者は異なる文体と専門用語で異なるセクションを書いています。セクションごとの要約は、無理な統一ナレーションを強制するのではなく、それらの境界を尊重します。
gavel
Contracts where each clause counts
30条項のマスターサービス契約では、各条項が個別の交渉対象です。価格設定と解除を同じまとまりに入れると、実際に修正が必要な箇所が見えなくなります。

Frequently asked questions

要約ツールはPDFのセクションをどのように検出しますか?
セクション検出は、タイポグラフィ解析(フォントサイズの変化、太さの変化、大文字の使用)と位置的手がかり(垂直間隔、インデント、1.、1.1、I.、A.などの番号パターン)を組み合わせます。パーサーはPDFのテキスト層から見出しツリーを抽出し、ページのジオメトリに対して検証し、段落を所属するセクションにグループ化します。結果は階層的なアウトラインとなり、セクションごとの要約を駆動します。参照: the technical flow 4段階のパイプラインについては、こちらをご覧ください。
文書全体ではなく、章ごとに要約を取得できますか?
はい — それがデフォルトの動作です。サマライザーは検出された各セクション(章、条項、IMRADブロック、議題項目)を独立した単位として扱い、それぞれの独立したTL;DRを生成します。上部にロールアップの概要段落も表示されますが、セクションごとの内訳が主な出力であり、単独でエクスポートできます。ツールを開いてください: /summarize-pdf-ai お試しください。
What if my PDF doesn't have explicit headings?
タイポグラフィの見出しがない文書(プレーンな文章、スキャンした記事、トランスクリプト)では、ツールはセマンティックブロックグループ化にフォールバックします。段落は埋め込みで検出されたトピックの変化によってクラスタリングされ、合成されたセクションラベルが割り当てられます。出力は依然として階層的です — 任意のチャンクごとの要約ではなく、トピックでグループ化されたTL;DRが得られます。
セクションの要約をWordドキュメントとしてエクスポートできますか?
はい。エクスポートオプションには、適切な見出しスタイルが適用されたWord(.docx)、H1/H2の階層が維持されたMarkdown、プレーンテキスト、PDFが含まれます。Wordエクスポートはセクション構造を保持するため、再フォーマットなしにレポートやブリーフィングテンプレートに組み込めます。元のPDFを編集可能な形式で必要な場合は、こちらを使用してください: PDF to Word (local) alongside the summary.
Does each section summary include its own source citations?
はい。各セクションのTL;DRはソースPDFへのページと段落のアンカーを持つため、方法の要約の箇条書きは方法の正確なパッセージを引用します(結果のどこかではなく)。任意の箇条書きをクリックすると、インラインビューアーでハイライトされたソース範囲にジャンプします。引用はセクションにスコープされているため、フラットなサマライザーが一般的に犯すセクション間の帰属エラーを防ぎます。任意のセクションをより深く掘り下げるには、次に切り替えてください: chat mode and ask follow-ups.

Stop reading forty pages. Start reading forty TL;DRs — one per section.

PDFをドロップすると、アウトラインが表示され、セクションスコープの引用付きセクションごとのTL;DRが得られます。Word、Markdown、またはPDFにエクスポート — 構造はそのまま保持されます。

auto_awesomeOpen the summarizer