Structure-aware summarization

A PDF content summarizer that keeps the outlinesection by section, not flattened into a blob.

अधिकतर सारांशकर्ता सब कुछ जोड़कर एक पैराग्राफ देते हैं जो दस्तावेज़ का ढाँचा खो देता है। यह Abstract, Methods, Results, खंडों और अध्यायों को अलग-अलग पहचानता है — फिर प्रत्येक अनुभाग के लिए TL;DR लिखता है ताकि मूल क्रम बना रहे।

account_treeHierarchical output format_list_bulletedPer-section TL;DR linkSection-scoped citations descriptionDOCX / MD / PDF export

Structure preserved, not flattened.

40 पेज की PDF एक चीज़ के 40 पेज नहीं है — यह एक आउटलाइन है। सारांशकर्ता को भी आउटलाइन ही लौटानी चाहिए।

अधिकतर LLM सारांशकर्ता PDF को खंडों में बाँटते हैं, प्रत्येक खंड का सारांश बनाते हैं और परिणाम को एक गद्य पैराग्राफ में जोड़ते हैं। वह आउटपुट ट्वीट के लिए तो ठीक है लेकिन उन दस्तावेज़ों के लिए बेकार है जो have shape — research papers, contracts, board reports, multi-chapter handbooks.

संरचना-जागरूक सारांशकर्ता इसके बजाय पहले दस्तावेज़ की वास्तविक पदानुक्रम पहचानता है — Abstract, Methods, Results, Discussion, या Clause 1, Clause 2, Clause 3 — और लिखता है one TL;DR per detected section। आउटपुट स्वयं एक आउटलाइन है, जो स्रोत को दर्शाती है।

जब आपको कुछ ढूँढना हो तो यह अंतर मायने रखता है। फ्लैट ब्लॉब के साथ आप pricing वाला हिस्सा ढूँढने के लिए पूरा सारांश फिर से पढ़ते हैं। प्रति-अनुभाग TL;DR के साथ आप सीधे «Clause 4 · Pricing» पर जाते हैं और स्रोत पैराग्राफ के लिंक के साथ 2-पंक्ति का जवाब पाते हैं।

blockFlat blob output
account_treeSection-aware
articleAbstract
scienceMethods
analyticsResults
forumDiscussion

Built for documents with shape.

अगर आपकी PDF में अध्याय, खंड, लाइन आइटम या एजेंडा ब्लॉक हैं, तो प्रति-अनुभाग सारांश वह संरक्षित करता है जो फ्लैट सारांश नष्ट कर देता है।

science
Research papers
IMRAD structure preserved — Abstract, Introduction, Methods, Results, Discussion each get their own TL;DR with section-scoped citations.
IMRAD
gavel
Contracts
प्रत्येक खंड का स्वतंत्र रूप से सारांश — Term, Pricing, Liability, Termination — ताकि आप खंड-दर-खंड दायित्व स्कैन कर सकें।
Per-clause
balance
Legal briefs
Statement of Facts, Argument I, Argument II, Conclusion — एकल कथा में मिलाने की बजाय अलग ब्लॉक के रूप में संरक्षित।
Sectioned
trending_up
Financial reports
Revenue, Operating Expenses, Cash Flow, Risk Factors — प्रत्येक लाइन आइटम का सारांश अंतर्निहित संख्याओं सहित।
Line items
groups
Meeting transcripts
Agenda items become sections — each gets a decision-and-action TL;DR, so attendees see what was concluded per topic.
Per-agenda

How section detection works.

हेडिंग पहचान एक टाइपोग्राफी समस्या है, भाषा समस्या से पहले। पाइपलाइन पेज को एक डिज़ाइनर की तरह पढ़ती है, फिर एक संपादक की तरह सारांशित करती है।

1
PDF parsing
पोज़िशनल मेटाडेटा के साथ टेक्स्ट लेयर निकालें — हर स्पैन को मिलता है x, y, fontSize, weight, and page। स्कैन की गई PDF पहले OCR की जाती हैं ताकि वही मेटाडेटा मौजूद हो।
2
Heading detection
Cluster spans by typography: bigger font + bolder weight + leading whitespace = heading candidate. Numbering patterns (1.1.2, I.A) confirm hierarchy depth.
3
Semantic block grouping
बॉडी पैराग्राफ निकटतम पूर्ववर्ती हेडिंग को सौंपे जाते हैं। स्पष्ट हेडिंग रहित PDF के लिए, एम्बेडिंग विषय परिवर्तन पहचानती हैं और ब्लॉक लेबल बनाती हैं।
4
Per-section abstractive summary
प्रत्येक ब्लॉक का अनुभाग-स्कोप्ड संदर्भ के साथ स्वतंत्र रूप से सारांश — कोई क्रॉस-ब्लीड नहीं। उद्धरण ब्लॉक के भीतर पैराग्राफ स्तर पर जुड़े हैं।

Output formats — pick the shape you need.

Same hierarchical extraction, three rendering modes. Switch between them without re-summarizing.

format_list_bulleted
Bullet TL;DR
प्रति अनुभाग तीन से पाँच बुलेट। स्कैनिंग, ब्रीफिंग डेक और फ़ॉलो-अप ईमेल डाइजेस्ट के लिए उत्तम जहाँ पाठकों को विषय के अनुसार स्किम करना हो।
Methods
Two-stage retrieval pipeline
N=412 clinical PDFs sampled
ROUGE-L primary metric
subject
Executive paragraph
प्रति अनुभाग एक संक्षिप्त पैराग्राफ, गद्य पाठकों के लिए। निष्कर्षों के बीच तार्किक संबंध संरक्षित — मेमो और रिपोर्ट के लिए उपयोगी।
Results
अनुभाग-जागरूक संस्करण ने फ्लैट बेसलाइन को 18 ROUGE-L पॉइंट से पीछे छोड़ा और होल्ड-आउट दस्तावेज़ों पर 96% सेक्शन-एट्रिब्यूशन सटीकता बनाए रखी।
account_tree
Outline / mind-map
अनुभागों और उप-अनुभागों का एक संक्षेप्य ट्री — लंबी PDF के लिए सर्वश्रेष्ठ जहाँ आप पहले नेविगेट करना और फिर पढ़ना चाहते हैं।
Paper
Abstract
Methods
Sampling
Pipeline
Results

What you get vs a flat summary.

Both produce text. Only one preserves the document.

Flat blobTypical summarizer
पूरे दस्तावेज़ के लिए एक पैराग्राफ
  • closeLoses the outline. Methods और Discussion एक ही गद्य धारा में धुंधले हो जाते हैं।
  • closeCross-section citations. Results का दावा Methods के किसी अंश को जिम्मेदार ठहराया जा सकता है।
  • closeNo navigation. किसी विषय को ढूँढने के लिए आप पूरा सारांश फिर से पढ़ते हैं।
  • closeLength collapses meaning. A 40-page contract becomes 200 words; clauses disappear.
  • closeHard to export structurally. The Word doc has no headings.
Section-awareThis tool
One TL;DR per detected section, hierarchy intact
  • checkOutline preserved. Each Abstract, Method, clause, or chapter has its own block.
  • checkSection-scoped citations. A bullet in Methods cites only Methods passages.
  • checkJump to topic. «Clause 4» क्लिक करें और पूरा सारांश फिर से स्कैन करने की बजाय 60 शब्द पढ़ें।
  • checkLength adapts to depth. Long sections get longer summaries automatically.
  • checkStructural export. H1/H2 स्टाइल के साथ DOCX, उचित हेडिंग स्तरों के साथ Markdown।

When section-aware actually matters.

A two-page memo doesn't need this. A forty-page contract does.

menu_book
Long technical PDFs
जब दस्तावेज़ 40+ पेज का हो और अलग-अलग चरण हों (background, design, evaluation), तो फ्लैट सारांश चरणों को एक अविभेदित पैराग्राफ में दबा देता है और आप विषय के अनुसार स्किम करने की क्षमता खो देते हैं।
group
Multi-author papers
प्रत्येक योगदानकर्ता ने अलग आवाज़ और शब्दावली में अलग अनुभाग लिखा। प्रति-अनुभाग सारांश एक नकली एकीकृत कथा थोपने की बजाय उन सीमाओं का सम्मान करते हैं।
gavel
Contracts where each clause counts
30-खंड MSA में, प्रत्येक खंड एक अलग वार्ता क्षेत्र है। Pricing और Termination को एक ही ब्लॉब में मिलाने से वे चीज़ें छुप जाती हैं जिन्हें आपको वास्तव में रेडलाइन करना है।

Frequently asked questions

सारांशकर्ता PDF में अनुभाग कैसे पहचानता है?
अनुभाग पहचान टाइपोग्राफी विश्लेषण (फ़ॉन्ट आकार परिवर्तन, वेट बदलाव, ऑल-कैप्स उपयोग) को पोज़िशनल संकेतों (वर्टिकल स्पेसिंग, इंडेंटेशन, 1., 1.1, I., A. जैसे नंबरिंग पैटर्न) से जोड़ती है। पार्सर PDF की टेक्स्ट लेयर से हेडिंग ट्री निकालता है, पेज ज्यामिति के विरुद्ध सत्यापित करता है और पैराग्राफ को उनके अनुभाग में समूहित करता है। परिणाम एक पदानुक्रमित आउटलाइन है जो प्रति-अनुभाग सारांशीकरण चलाती है। देखें the technical flow चार-चरण पाइपलाइन के लिए।
क्या मैं पूरे दस्तावेज़ के लिए एक की बजाय प्रति अध्याय एक सारांश पा सकता हूँ?
हाँ — यही डिफ़ॉल्ट व्यवहार है। सारांशकर्ता प्रत्येक पहचाने गए अनुभाग (अध्याय, खंड, IMRAD ब्लॉक, एजेंडा आइटम) को अपनी इकाई के रूप में मानता है और उसके लिए स्वतंत्र TL;DR तैयार करता है। आपको शीर्ष पर एक रोल-अप एग्ज़ीक्यूटिव पैराग्राफ भी मिलता है, लेकिन प्रति-अनुभाग विवरण प्राथमिक आउटपुट है जिसे अलग से निर्यात किया जा सकता है। टूल खोलें /summarize-pdf-ai इसे आज़माने के लिए।
What if my PDF doesn't have explicit headings?
टाइपोग्राफिक हेडिंग रहित दस्तावेज़ों (सादा गद्य, स्कैन लेख, ट्रांसक्रिप्ट) के लिए टूल सिमेंटिक ब्लॉक ग्रुपिंग पर वापस जाता है: पैराग्राफ को एम्बेडिंग में पहचाने गए विषय परिवर्तन के अनुसार क्लस्टर किया जाता है, फिर सिंथेटिक अनुभाग लेबल सौंपे जाते हैं। आउटपुट फिर भी पदानुक्रमित है — आपको मनमाने खंड-दर-खंड सारांश की बजाय विषय-समूहित TL;DR मिलते हैं।
क्या मैं अनुभाग सारांशों को Word दस्तावेज़ के रूप में निर्यात कर सकता हूँ?
हाँ। निर्यात विकल्पों में उचित हेडिंग स्टाइल के साथ Word (.docx), H1/H2 पदानुक्रम सहित Markdown, सादा टेक्स्ट और PDF शामिल हैं। Word निर्यात अनुभाग ढाँचा बनाए रखता है ताकि आप इसे बिना पुनः फ़ॉर्मेट किए रिपोर्ट या ब्रीफिंग टेम्पलेट में डाल सकें। अगर आपको मूल PDF संपादन योग्य रूप में भी चाहिए, तो उपयोग करें PDF to Word (local) alongside the summary.
Does each section summary include its own source citations?
हाँ। प्रत्येक प्रति-अनुभाग TL;DR स्रोत PDF पर वापस पेज-और-पैराग्राफ एंकर रखता है, इसलिए Methods सारांश का एक बुलेट Methods में सटीक अंश उद्धृत करता है (Results में कहीं नहीं)। किसी भी बुलेट पर क्लिक करें और इनलाइन व्यूअर में हाइलाइट किए गए स्रोत स्पैन पर जाएँ। उद्धरण अनुभाग तक सीमित हैं, जो क्रॉस-सेक्शन एट्रिब्यूशन त्रुटियों को रोकता है जो फ्लैट सारांशकर्ता सामान्यतः करते हैं। किसी भी अनुभाग में गहरे जाने के लिए स्विच करें chat mode and ask follow-ups.

Stop reading forty pages. Start reading forty TL;DRs — one per section.

PDF डालें, आउटलाइन प्रकट होते देखें, अनुभाग-स्कोप्ड उद्धरणों के साथ प्रति-अनुभाग TL;DR पाएँ। Word, Markdown, या वापस PDF में निर्यात करें — ढाँचा बरकरार।

auto_awesomeOpen the summarizer