Resumidura consciente da estrutura

Um resumidor de conteúdo PDF que mantém a estruturasecção a secção, não achatado num bloco.

A maioria dos resumidores concatena tudo e devolve um parágrafo que perde a forma do documento. Este deteta Resumo, Métodos, Resultados, cláusulas e capítulos individualmente — depois escreve um TL;DR por secção para que a hierarquia original sobreviva.

account_treeSaída hierárquica format_list_bulletedTL;DR por secção linkCitações com âmbito por secção descriptionExportação DOCX / MD / PDF

Estrutura preservada, não achatada.

Um PDF de 40 páginas não são 40 páginas de uma coisa — é uma estrutura. O resumidor também deve devolver uma estrutura.

A maioria dos resumidores LLM divide um PDF em blocos, resume cada bloco e concatena o resultado num parágrafo de prosa. Essa saída é cómoda para tweets, mas inútil para documentos que têm forma — artigos de investigação, contratos, relatórios de administração, manuais com vários capítulos.

Um resumidor consciente da estrutura deteta antes a hierarquia real do documento — Resumo, Métodos, Resultados, Discussão, ou Cláusula 1, Cláusula 2, Cláusula 3 — e escreve um TL;DR por secção detetada. A saída é em si própria uma estrutura, espelhando a origem.

A diferença importa quando precisa de encontrar algo. Com um bloco achatado, volta a ler o resumo todo para localizar a parte sobre preços. Com TL;DRs por secção, salta diretamente para "Cláusula 4 · Preço" e encontra uma resposta em 2 linhas com ligação ao parágrafo de origem.

blockSaída em bloco achatado
account_treeConsciente das secções
articleResumo
scienceMétodos
analyticsResultados
forumDiscussão

Construído para documentos com forma.

Se o seu PDF tem capítulos, cláusulas, linhas de item ou blocos de agenda, um resumo por secção preserva o que um resumo plano destrói.

science
Artigos de investigação
Estrutura IMRAD preservada — Resumo, Introdução, Métodos, Resultados, Discussão recebem cada um o seu TL;DR com citações com âmbito por secção.
IMRAD
gavel
Contratos
Cada cláusula é resumida independentemente — Prazo, Preço, Responsabilidade, Rescisão — para poder analisar obrigações cláusula a cláusula.
Por cláusula
balance
Peças jurídicas
Exposição dos Factos, Argumento I, Argumento II, Conclusão — preservados como blocos discretos em vez de fundidos numa narrativa única.
Seccionado
trending_up
Relatórios financeiros
Receitas, Despesas Operacionais, Fluxo de Caixa, Fatores de Risco — cada item de linha resumido com os números subjacentes anexados.
Itens de linha
groups
Transcrições de reuniões
Os itens da agenda tornam-se secções — cada um recebe um TL;DR de decisão e ação, para os participantes verem o que foi concluído por tópico.
Por agenda

Como funciona a deteção de secções.

A deteção de títulos é um problema tipográfico antes de ser um problema de linguagem. O pipeline lê a página como um designer faria e depois resume como um editor faria.

1
Análise do PDF
Extrair a camada de texto com metadados posicionais — cada bloco recebe x, y, fontSize, weight e page. Os PDFs digitalizados são primeiro processados por OCR para que os mesmos metadados existam.
2
Deteção de títulos
Agrupar blocos por tipografia: tipo de letra maior + peso mais forte + espaço em branco prévio = candidato a título. Os padrões de numeração (1.1.2, I.A) confirmam a profundidade da hierarquia.
3
Agrupamento semântico de blocos
Os parágrafos do corpo são atribuídos ao título precedente mais próximo. Para PDFs sem títulos explícitos, os embeddings detetam mudanças de tópico e sintetizam etiquetas de bloco.
4
Resumo abstrativo por secção
Cada bloco é resumido independentemente com contexto de âmbito por secção — sem contaminação cruzada. As citações são anexadas com granularidade de parágrafo dentro do bloco.

Formatos de saída — escolha a forma que precisa.

Mesma extração hierárquica, três modos de renderização. Alterne entre eles sem voltar a resumir.

format_list_bulleted
TL;DR em pontos
Três a cinco pontos por secção. Ideal para leitura rápida, apresentações de briefing e digests de e-mail de seguimento em que os leitores precisam de ler por tópico.
Métodos
Pipeline de recuperação em duas fases
N=412 PDFs clínicos amostrados
ROUGE-L como métrica principal
subject
Parágrafo executivo
Um parágrafo conciso por secção, escrito para leitores de prosa. Preserva a lógica de ligação entre conclusões — útil para memorandos e relatórios.
Resultados
A variante consciente das secções superou os baselines planos em 18 pontos ROUGE-L e manteve uma precisão de atribuição de secção de 96% em documentos retidos.
account_tree
Estrutura / mapa mental
Uma árvore colapsável de secções e subsecções — ideal para PDFs longos em que quer navegar primeiro e ler depois.
Artigo
Resumo
Métodos
Amostragem
Pipeline
Resultados

O que recebe vs um resumo plano.

Ambos produzem texto. Apenas um preserva o documento.

Bloco planoResumidor típico
Um parágrafo para o documento todo
  • closePerde a estrutura. Métodos e Discussão ficam diluídos no mesmo fluxo de prosa.
  • closeCitações entre secções. Uma afirmação de Resultados pode ser atribuída a uma passagem em Métodos.
  • closeSem navegação. Volta a ler o resumo para encontrar um tópico.
  • closeO comprimento esmaga o significado. Um contrato de 40 páginas torna-se 200 palavras; as cláusulas desaparecem.
  • closeDifícil de exportar estruturalmente. O documento Word não tem títulos.
Consciente das secçõesEsta ferramenta
Um TL;DR por secção detetada, hierarquia intacta
  • checkEstrutura preservada. Cada Resumo, Método, cláusula ou capítulo tem o seu próprio bloco.
  • checkCitações com âmbito por secção. Um ponto em Métodos cita apenas passagens de Métodos.
  • checkSaltar para o tópico. Clique em "Cláusula 4" e leia 60 palavras em vez de varrer todo o resumo.
  • checkO comprimento adapta-se à profundidade. Secções longas recebem resumos mais longos automaticamente.
  • checkExportação estrutural. DOCX com estilos H1/H2, Markdown com níveis de título adequados.

Quando ser consciente das secções realmente importa.

Um memorando de duas páginas não precisa disto. Um contrato de quarenta páginas precisa.

menu_book
PDFs técnicos longos
Quando o documento tem mais de 40 páginas com fases distintas (contexto, conceção, avaliação), um resumo plano colapsa as fases num parágrafo indiferenciado e perde a capacidade de ler rapidamente por tópico.
group
Artigos com vários autores
Cada contribuidor escreveu uma secção diferente com voz diferente e terminologia diferente. Os resumos por secção respeitam esses limites em vez de forçar uma narrativa unificada falsa.
gavel
Contratos em que cada cláusula conta
Num MSA com 30 cláusulas, cada cláusula é uma superfície de negociação separada. Juntar Preço e Rescisão no mesmo bloco esconde as coisas que realmente precisa de marcar.

Perguntas frequentes

Como é que o resumidor deteta secções num PDF?
A deteção de secções combina análise tipográfica (saltos no tamanho do tipo de letra, alterações de peso, uso de maiúsculas) com pistas posicionais (espaçamento vertical, indentação, padrões de numeração como 1., 1.1, I., A.). O analisador extrai uma árvore de títulos da camada de texto do PDF, valida-a contra a geometria da página, e agrupa parágrafos na secção a que pertencem. O resultado é uma estrutura hierárquica que conduz à resumidura por secção. Veja o fluxo técnico para o pipeline de quatro fases.
Posso obter um resumo por capítulo em vez de um para o documento todo?
Sim — esse é o comportamento predefinido. O resumidor trata cada secção detetada (capítulo, cláusula, bloco IMRAD, item de agenda) como unidade própria e produz um TL;DR independente para ela. Também obtém um parágrafo executivo agregado no topo, mas a divisão por secção é a saída principal e pode ser exportada por si só. Abra a ferramenta em /pt/summarize-pdf-ai para experimentar.
E se o meu PDF não tiver títulos explícitos?
Para documentos sem títulos tipográficos (prosa simples, artigos digitalizados, transcrições), a ferramenta recorre ao agrupamento semântico de blocos: os parágrafos são agrupados pela mudança de tópico detetada em embeddings e depois recebem etiquetas de secção sintéticas. A saída continua a ser hierárquica — obtém TL;DRs agrupados por tópico em vez de resumos arbitrários por bloco.
Posso exportar os resumos por secção como documento Word?
Sim. As opções de exportação incluem Word (.docx) com estilos de título adequados aplicados, Markdown com hierarquia H1/H2 intacta, texto simples e PDF. A exportação Word mantém a estrutura de secções para que possa colocá-la num modelo de relatório ou briefing sem voltar a formatar. Se também precisar do PDF original em forma editável, use PDF para Word (local) ao lado do resumo.
Cada resumo de secção inclui as suas próprias citações de origem?
Sim. Cada TL;DR por secção transporta âncoras de página e parágrafo de volta ao PDF de origem, pelo que um ponto no resumo de Métodos cita a passagem exata em Métodos (não algures em Resultados). Clique em qualquer ponto para saltar para o seu trecho de origem realçado no visualizador integrado. As citações têm âmbito por secção, o que evita erros de atribuição entre secções que os resumidores planos costumam cometer. Para aprofundar qualquer secção, mude para o modo de chat e faça perguntas de seguimento.

Pare de ler quarenta páginas. Comece a ler quarenta TL;DRs — um por secção.

Largue um PDF, veja a estrutura aparecer, obtenha um TL;DR por secção com citações com âmbito por secção. Exporte para Word, Markdown ou de volta para PDF — estrutura intacta.

auto_awesomeAbrir o resumidor