Structure-aware summarization

A PDF content summarizer that keeps the outlinesection by section, not flattened into a blob.

La maggior parte degli strumenti di riepilogo concatena tutto e restituisce un paragrafo che perde la struttura del documento. Questo rileva Sommario, Metodi, Risultati, clausole e capitoli individualmente — poi scrive un TL;DR per sezione in modo che la gerarchia originale sopravviva.

account_treeHierarchical output format_list_bulletedPer-section TL;DR linkSection-scoped citations descriptionDOCX / MD / PDF export

Structure preserved, not flattened.

Un PDF di 40 pagine non è 40 pagine di una sola cosa — è uno schema. Anche lo strumento di riepilogo dovrebbe restituire uno schema.

La maggior parte degli strumenti di riepilogo LLM divide un PDF in blocchi, riassume ogni blocco e concatena il risultato in un unico paragrafo in prosa. Quell'output è comodo per i tweet ma inutile per documenti che have shape — research papers, contracts, board reports, multi-chapter handbooks.

Uno strumento di riepilogo consapevole della struttura rileva invece prima la gerarchia reale del documento — Sommario, Metodi, Risultati, Discussione, o Clausola 1, Clausola 2, Clausola 3 — e scrive one TL;DR per detected section. L'output è esso stesso uno schema, che rispecchia la sorgente.

La differenza conta quando hai bisogno di trovare qualcosa. Con un blob piatto rileggi l'intero riepilogo per trovare la parte sui prezzi. Con i TL;DR per sezione vai direttamente a «Clausola 4 · Prezzi» e trovi una risposta di 2 righe con un link al paragrafo sorgente.

blockFlat blob output
account_treeSection-aware
articleAbstract
scienceMethods
analyticsResults
forumDiscussion

Built for documents with shape.

Se il tuo PDF ha capitoli, clausole, voci di elenco o blocchi dell'ordine del giorno, un riepilogo per sezione preserva ciò che uno piatto distrugge.

science
Research papers
IMRAD structure preserved — Abstract, Introduction, Methods, Results, Discussion each get their own TL;DR with section-scoped citations.
IMRAD
gavel
Contracts
Ogni clausola viene riassunta in modo indipendente — Durata, Prezzi, Responsabilità, Risoluzione — così puoi esaminare gli obblighi clausola per clausola.
Per-clause
balance
Legal briefs
Dichiarazione dei Fatti, Argomento I, Argomento II, Conclusione — conservati come blocchi distinti invece di essere fusi in un'unica narrativa.
Sectioned
trending_up
Financial reports
Ricavi, Spese Operative, Flusso di Cassa, Fattori di Rischio — ogni voce riassunta con i numeri sottostanti allegati.
Line items
groups
Meeting transcripts
Agenda items become sections — each gets a decision-and-action TL;DR, so attendees see what was concluded per topic.
Per-agenda

How section detection works.

Il rilevamento delle intestazioni è un problema tipografico prima di essere un problema linguistico. La pipeline legge la pagina come farebbe un designer, poi riassume come farebbe un editor.

1
PDF parsing
Estrai il livello testo con metadati posizionali — ogni elemento ottiene x, y, fontSize, weight, and page. I PDF scansionati vengono prima sottoposti a OCR così gli stessi metadati esistono.
2
Heading detection
Cluster spans by typography: bigger font + bolder weight + leading whitespace = heading candidate. Numbering patterns (1.1.2, I.A) confirm hierarchy depth.
3
Semantic block grouping
I paragrafi del corpo vengono assegnati all'intestazione precedente più vicina. Per i PDF senza intestazioni esplicite, gli embedding rilevano i cambi di argomento e sintetizzano le etichette dei blocchi.
4
Per-section abstractive summary
Ogni blocco viene riassunto in modo indipendente con contesto limitato alla sezione — nessuna contaminazione incrociata. Le citazioni sono allegate a livello di paragrafo all'interno del blocco.

Output formats — pick the shape you need.

Same hierarchical extraction, three rendering modes. Switch between them without re-summarizing.

format_list_bulleted
Bullet TL;DR
Da tre a cinque punti elenco per sezione. Ottimale per la scansione, le presentazioni di briefing e i digest email di follow-up in cui i lettori devono scorrere per argomento.
Methods
Two-stage retrieval pipeline
N=412 clinical PDFs sampled
ROUGE-L primary metric
subject
Executive paragraph
Un paragrafo conciso per sezione, scritto per chi legge in prosa. Preserva la logica connettiva tra i risultati — utile per memo e report.
Results
La variante consapevole delle sezioni ha superato le baseline piatte di 18 punti ROUGE-L e ha mantenuto una precisione di attribuzione delle sezioni del 96% sui documenti di test.
account_tree
Outline / mind-map
Un albero comprimibile di sezioni e sottosezioni — ideale per PDF lunghi in cui vuoi prima navigare e poi leggere.
Paper
Abstract
Methods
Sampling
Pipeline
Results

What you get vs a flat summary.

Both produce text. Only one preserves the document.

Flat blobTypical summarizer
Un paragrafo per l'intero documento
  • closeLoses the outline. Metodi e Discussione si confondono nello stesso flusso di prosa.
  • closeCross-section citations. Un'affermazione dei Risultati potrebbe essere attribuita a un passaggio dei Metodi.
  • closeNo navigation. Rileggi il riepilogo per trovare un argomento.
  • closeLength collapses meaning. A 40-page contract becomes 200 words; clauses disappear.
  • closeHard to export structurally. The Word doc has no headings.
Section-awareThis tool
One TL;DR per detected section, hierarchy intact
  • checkOutline preserved. Each Abstract, Method, clause, or chapter has its own block.
  • checkSection-scoped citations. A bullet in Methods cites only Methods passages.
  • checkJump to topic. Clicca su «Clausola 4» e leggi 60 parole invece di riscorrere l'intero riepilogo.
  • checkLength adapts to depth. Long sections get longer summaries automatically.
  • checkStructural export. DOCX con stili H1/H2, Markdown con i livelli di intestazione corretti.

When section-aware actually matters.

A two-page memo doesn't need this. A forty-page contract does.

menu_book
Long technical PDFs
Quando il documento ha 40 o più pagine con fasi distinte (background, progettazione, valutazione), un riepilogo piatto collassa le fasi in un unico paragrafo indifferenziato e perdi la possibilità di scorrere per argomento.
group
Multi-author papers
Ogni collaboratore ha scritto una sezione diversa con una voce diversa e terminologia diversa. I riepiloghi per sezione rispettano quei confini invece di imporre una falsa narrativa unificata.
gavel
Contracts where each clause counts
In un MSA di 30 clausole, ogni clausola è una superficie di negoziazione separata. Raggruppare Prezzi e Risoluzione nello stesso blob nasconde le cose che devi effettivamente revisionare.

Frequently asked questions

Come fa lo strumento di riepilogo a rilevare le sezioni in un PDF?
Il rilevamento delle sezioni combina l'analisi tipografica (variazioni della dimensione del font, cambi di peso, uso delle maiuscole) con segnali posizionali (spaziatura verticale, rientro, pattern di numerazione come 1., 1.1, I., A.). Il parser estrae un albero di intestazioni dal livello testo del PDF, lo valida rispetto alla geometria della pagina e raggruppa i paragrafi nella sezione a cui appartengono. Il risultato è uno schema gerarchico che guida il riepilogo per sezione. Vedi the technical flow per la pipeline a quattro fasi.
Posso ottenere un riepilogo per capitolo invece di uno per l'intero documento?
Sì — è il comportamento predefinito. Lo strumento di riepilogo tratta ogni sezione rilevata (capitolo, clausola, blocco IMRAD, punto dell'ordine del giorno) come un'unità propria e produce un TL;DR indipendente per essa. Ottieni anche un paragrafo di sintesi esecutiva in cima, ma il dettaglio per sezione è l'output principale e può essere esportato da solo. Apri lo strumento su /summarize-pdf-ai per provarlo.
What if my PDF doesn't have explicit headings?
Per i documenti senza intestazioni tipografiche (prosa semplice, articoli scansionati, trascrizioni), lo strumento ricorre al raggruppamento semantico dei blocchi: i paragrafi vengono raggruppati per cambio di argomento rilevato negli embedding, poi vengono assegnate etichette di sezione sintetiche. L'output è ancora gerarchico — ottieni TL;DR raggruppati per argomento invece di riepiloghi arbitrari blocco per blocco.
Posso esportare i riepiloghi delle sezioni come documento Word?
Sì. Le opzioni di esportazione includono Word (.docx) con gli stili di intestazione appropriati applicati, Markdown con la gerarchia H1/H2 intatta, testo normale e PDF. L'esportazione Word mantiene la struttura delle sezioni così puoi inserirla in un report o in un template di briefing senza riformattare. Se hai bisogno anche del PDF originale in forma modificabile, usa PDF to Word (local) alongside the summary.
Does each section summary include its own source citations?
Sì. Ogni TL;DR per sezione porta ancore di pagina e paragrafo al PDF sorgente, così un punto elenco nel riepilogo dei Metodi cita il passaggio esatto nei Metodi (non da qualche parte nei Risultati). Clicca su qualsiasi punto elenco per passare al suo span sorgente evidenziato nel visualizzatore inline. Le citazioni sono limitate alla sezione, il che previene gli errori di attribuzione intersezionale che i riepiloghi piatti commettono comunemente. Per approfondire qualsiasi sezione, passa a chat mode and ask follow-ups.

Stop reading forty pages. Start reading forty TL;DRs — one per section.

Trascina un PDF, guarda lo schema apparire, ottieni un TL;DR per sezione con citazioni limitate alla sezione. Esporta in Word, Markdown o di nuovo in PDF — struttura intatta.

auto_awesomeOpen the summarizer