Resumidura consciente da estrutura

Um resumidor de conteúdo PDF que mantém a estrutura — secção a secção, não achatado num bloco.

A maioria dos resumidores concatena tudo e devolve um parágrafo que perde a forma do documento. Este deteta Resumo, Métodos, Resultados, cláusulas e capítulos individualmente — depois escreve um TL;DR por secção para que a hierarquia original sobreviva.

account_treeSaída hierárquica format_list_bulletedTL;DR por secção linkCitações com âmbito por secção descriptionExportação DOCX / MD / PDF

auto_awesomeAbrir o resumidor arrow_downwardComo funciona a deteção de secções

articleResumo

scienceMétodos

analyticsResultados

forumDiscussão

article

Resumo · TL;DR

O estudo testa resumidura baseada em recuperação em 4 mil PDFs clínicos.

science

Métodos · TL;DR

Pipeline de duas fases: deteção de títulos e depois passe abstrativo por secção.

analytics

Resultados · TL;DR

+18 ROUGE-L sobre os baselines planos; atribuição de secção 96% precisa.

forum

Discussão · TL;DR

A saída que preserva a estrutura reduz o tempo do revisor em PDFs longos em ~40%.

Estrutura preservada, não achatada.

Um PDF de 40 páginas não são 40 páginas de uma coisa — é uma estrutura. O resumidor também deve devolver uma estrutura.

A maioria dos resumidores LLM divide um PDF em blocos, resume cada bloco e concatena o resultado num parágrafo de prosa. Essa saída é cómoda para tweets, mas inútil para documentos que têm forma — artigos de investigação, contratos, relatórios de administração, manuais com vários capítulos.

Um resumidor consciente da estrutura deteta antes a hierarquia real do documento — Resumo, Métodos, Resultados, Discussão, ou Cláusula 1, Cláusula 2, Cláusula 3 — e escreve um TL;DR por secção detetada. A saída é em si própria uma estrutura, espelhando a origem.

A diferença importa quando precisa de encontrar algo. Com um bloco achatado, volta a ler o resumo todo para localizar a parte sobre preços. Com TL;DRs por secção, salta diretamente para "Cláusula 4 · Preço" e encontra uma resposta em 2 linhas com ligação ao parágrafo de origem.

blockSaída em bloco achatado

account_treeConsciente das secções

articleResumo

scienceMétodos

analyticsResultados

forumDiscussão

Construído para documentos com forma.

Se o seu PDF tem capítulos, cláusulas, linhas de item ou blocos de agenda, um resumo por secção preserva o que um resumo plano destrói.

science

Artigos de investigação

Estrutura IMRAD preservada — Resumo, Introdução, Métodos, Resultados, Discussão recebem cada um o seu TL;DR com citações com âmbito por secção.

IMRAD

gavel

Contratos

Cada cláusula é resumida independentemente — Prazo, Preço, Responsabilidade, Rescisão — para poder analisar obrigações cláusula a cláusula.

Por cláusula

balance

Peças jurídicas

Exposição dos Factos, Argumento I, Argumento II, Conclusão — preservados como blocos discretos em vez de fundidos numa narrativa única.

Seccionado

trending_up

Relatórios financeiros

Receitas, Despesas Operacionais, Fluxo de Caixa, Fatores de Risco — cada item de linha resumido com os números subjacentes anexados.

Itens de linha

groups

Transcrições de reuniões

Os itens da agenda tornam-se secções — cada um recebe um TL;DR de decisão e ação, para os participantes verem o que foi concluído por tópico.

Por agenda

Como funciona a deteção de secções.

A deteção de títulos é um problema tipográfico antes de ser um problema de linguagem. O pipeline lê a página como um designer faria e depois resume como um editor faria.

Análise do PDF

Extrair a camada de texto com metadados posicionais — cada bloco recebe x, y, fontSize, weight e page. Os PDFs digitalizados são primeiro processados por OCR para que os mesmos metadados existam.

Deteção de títulos

Agrupar blocos por tipografia: tipo de letra maior + peso mais forte + espaço em branco prévio = candidato a título. Os padrões de numeração (1.1.2, I.A) confirmam a profundidade da hierarquia.

Agrupamento semântico de blocos

Os parágrafos do corpo são atribuídos ao título precedente mais próximo. Para PDFs sem títulos explícitos, os embeddings detetam mudanças de tópico e sintetizam etiquetas de bloco.

Resumo abstrativo por secção

Cada bloco é resumido independentemente com contexto de âmbito por secção — sem contaminação cruzada. As citações são anexadas com granularidade de parágrafo dentro do bloco.

Formatos de saída — escolha a forma que precisa.

Mesma extração hierárquica, três modos de renderização. Alterne entre eles sem voltar a resumir.

format_list_bulleted

TL;DR em pontos

Três a cinco pontos por secção. Ideal para leitura rápida, apresentações de briefing e digests de e-mail de seguimento em que os leitores precisam de ler por tópico.

Métodos

Pipeline de recuperação em duas fases

N=412 PDFs clínicos amostrados

ROUGE-L como métrica principal

subject

Parágrafo executivo

Um parágrafo conciso por secção, escrito para leitores de prosa. Preserva a lógica de ligação entre conclusões — útil para memorandos e relatórios.

Resultados

A variante consciente das secções superou os baselines planos em 18 pontos ROUGE-L e manteve uma precisão de atribuição de secção de 96% em documentos retidos.

account_tree

Estrutura / mapa mental

Uma árvore colapsável de secções e subsecções — ideal para PDFs longos em que quer navegar primeiro e ler depois.

Artigo

Resumo

Métodos

Amostragem

Pipeline

Resultados

O que recebe vs um resumo plano.

Ambos produzem texto. Apenas um preserva o documento.

Bloco planoResumidor típico

Um parágrafo para o documento todo

closePerde a estrutura. Métodos e Discussão ficam diluídos no mesmo fluxo de prosa.
closeCitações entre secções. Uma afirmação de Resultados pode ser atribuída a uma passagem em Métodos.
closeSem navegação. Volta a ler o resumo para encontrar um tópico.
closeO comprimento esmaga o significado. Um contrato de 40 páginas torna-se 200 palavras; as cláusulas desaparecem.
closeDifícil de exportar estruturalmente. O documento Word não tem títulos.

Consciente das secçõesEsta ferramenta

Um TL;DR por secção detetada, hierarquia intacta

checkEstrutura preservada. Cada Resumo, Método, cláusula ou capítulo tem o seu próprio bloco.
checkCitações com âmbito por secção. Um ponto em Métodos cita apenas passagens de Métodos.
checkSaltar para o tópico. Clique em "Cláusula 4" e leia 60 palavras em vez de varrer todo o resumo.
checkO comprimento adapta-se à profundidade. Secções longas recebem resumos mais longos automaticamente.
checkExportação estrutural. DOCX com estilos H1/H2, Markdown com níveis de título adequados.

Quando ser consciente das secções realmente importa.

Um memorando de duas páginas não precisa disto. Um contrato de quarenta páginas precisa.

menu_book

PDFs técnicos longos

Quando o documento tem mais de 40 páginas com fases distintas (contexto, conceção, avaliação), um resumo plano colapsa as fases num parágrafo indiferenciado e perde a capacidade de ler rapidamente por tópico.

group

Artigos com vários autores

Cada contribuidor escreveu uma secção diferente com voz diferente e terminologia diferente. Os resumos por secção respeitam esses limites em vez de forçar uma narrativa unificada falsa.

gavel

Contratos em que cada cláusula conta

Num MSA com 30 cláusulas, cada cláusula é uma superfície de negociação separada. Juntar Preço e Rescisão no mesmo bloco esconde as coisas que realmente precisa de marcar.

Combine com o resto da stack de privacidade.

A resumidura é uma peça — as outras ferramentas tratam do documento à sua volta.

Perguntas frequentes

Como é que o resumidor deteta secções num PDF?

A deteção de secções combina análise tipográfica (saltos no tamanho do tipo de letra, alterações de peso, uso de maiúsculas) com pistas posicionais (espaçamento vertical, indentação, padrões de numeração como 1., 1.1, I., A.). O analisador extrai uma árvore de títulos da camada de texto do PDF, valida-a contra a geometria da página, e agrupa parágrafos na secção a que pertencem. O resultado é uma estrutura hierárquica que conduz à resumidura por secção. Veja o fluxo técnico para o pipeline de quatro fases.

Posso obter um resumo por capítulo em vez de um para o documento todo?

Sim — esse é o comportamento predefinido. O resumidor trata cada secção detetada (capítulo, cláusula, bloco IMRAD, item de agenda) como unidade própria e produz um TL;DR independente para ela. Também obtém um parágrafo executivo agregado no topo, mas a divisão por secção é a saída principal e pode ser exportada por si só. Abra a ferramenta em /pt/summarize-pdf-ai para experimentar.

E se o meu PDF não tiver títulos explícitos?

Para documentos sem títulos tipográficos (prosa simples, artigos digitalizados, transcrições), a ferramenta recorre ao agrupamento semântico de blocos: os parágrafos são agrupados pela mudança de tópico detetada em embeddings e depois recebem etiquetas de secção sintéticas. A saída continua a ser hierárquica — obtém TL;DRs agrupados por tópico em vez de resumos arbitrários por bloco.

Posso exportar os resumos por secção como documento Word?

Sim. As opções de exportação incluem Word (.docx) com estilos de título adequados aplicados, Markdown com hierarquia H1/H2 intacta, texto simples e PDF. A exportação Word mantém a estrutura de secções para que possa colocá-la num modelo de relatório ou briefing sem voltar a formatar. Se também precisar do PDF original em forma editável, use PDF para Word (local) ao lado do resumo.

Cada resumo de secção inclui as suas próprias citações de origem?

Sim. Cada TL;DR por secção transporta âncoras de página e parágrafo de volta ao PDF de origem, pelo que um ponto no resumo de Métodos cita a passagem exata em Métodos (não algures em Resultados). Clique em qualquer ponto para saltar para o seu trecho de origem realçado no visualizador integrado. As citações têm âmbito por secção, o que evita erros de atribuição entre secções que os resumidores planos costumam cometer. Para aprofundar qualquer secção, mude para o modo de chat e faça perguntas de seguimento.

Pare de ler quarenta páginas. Comece a ler quarenta TL;DRs — um por secção.

Largue um PDF, veja a estrutura aparecer, obtenha um TL;DR por secção com citações com âmbito por secção. Exporte para Word, Markdown ou de volta para PDF — estrutura intacta.

auto_awesomeAbrir o resumidor