Um resumidor de conteúdo PDF que mantém a estrutura — secção a secção, não achatado num bloco.
A maioria dos resumidores concatena tudo e devolve um parágrafo que perde a forma do documento. Este deteta Resumo, Métodos, Resultados, cláusulas e capítulos individualmente — depois escreve um TL;DR por secção para que a hierarquia original sobreviva.
Estrutura preservada, não achatada.
Um PDF de 40 páginas não são 40 páginas de uma coisa — é uma estrutura. O resumidor também deve devolver uma estrutura.
A maioria dos resumidores LLM divide um PDF em blocos, resume cada bloco e concatena o resultado num parágrafo de prosa. Essa saída é cómoda para tweets, mas inútil para documentos que têm forma — artigos de investigação, contratos, relatórios de administração, manuais com vários capítulos.
Um resumidor consciente da estrutura deteta antes a hierarquia real do documento — Resumo, Métodos, Resultados, Discussão, ou Cláusula 1, Cláusula 2, Cláusula 3 — e escreve um TL;DR por secção detetada. A saída é em si própria uma estrutura, espelhando a origem.
A diferença importa quando precisa de encontrar algo. Com um bloco achatado, volta a ler o resumo todo para localizar a parte sobre preços. Com TL;DRs por secção, salta diretamente para "Cláusula 4 · Preço" e encontra uma resposta em 2 linhas com ligação ao parágrafo de origem.
Construído para documentos com forma.
Se o seu PDF tem capítulos, cláusulas, linhas de item ou blocos de agenda, um resumo por secção preserva o que um resumo plano destrói.
Como funciona a deteção de secções.
A deteção de títulos é um problema tipográfico antes de ser um problema de linguagem. O pipeline lê a página como um designer faria e depois resume como um editor faria.
x, y, fontSize, weight e page. Os PDFs digitalizados são primeiro processados por OCR para que os mesmos metadados existam.1.1.2, I.A) confirmam a profundidade da hierarquia.Formatos de saída — escolha a forma que precisa.
Mesma extração hierárquica, três modos de renderização. Alterne entre eles sem voltar a resumir.
O que recebe vs um resumo plano.
Ambos produzem texto. Apenas um preserva o documento.
- closePerde a estrutura. Métodos e Discussão ficam diluídos no mesmo fluxo de prosa.
- closeCitações entre secções. Uma afirmação de Resultados pode ser atribuída a uma passagem em Métodos.
- closeSem navegação. Volta a ler o resumo para encontrar um tópico.
- closeO comprimento esmaga o significado. Um contrato de 40 páginas torna-se 200 palavras; as cláusulas desaparecem.
- closeDifícil de exportar estruturalmente. O documento Word não tem títulos.
- checkEstrutura preservada. Cada Resumo, Método, cláusula ou capítulo tem o seu próprio bloco.
- checkCitações com âmbito por secção. Um ponto em Métodos cita apenas passagens de Métodos.
- checkSaltar para o tópico. Clique em "Cláusula 4" e leia 60 palavras em vez de varrer todo o resumo.
- checkO comprimento adapta-se à profundidade. Secções longas recebem resumos mais longos automaticamente.
- checkExportação estrutural. DOCX com estilos H1/H2, Markdown com níveis de título adequados.
Quando ser consciente das secções realmente importa.
Um memorando de duas páginas não precisa disto. Um contrato de quarenta páginas precisa.
Combine com o resto da stack de privacidade.
A resumidura é uma peça — as outras ferramentas tratam do documento à sua volta.
Perguntas frequentes
Como é que o resumidor deteta secções num PDF?
Posso obter um resumo por capítulo em vez de um para o documento todo?
E se o meu PDF não tiver títulos explícitos?
Posso exportar os resumos por secção como documento Word?
Cada resumo de secção inclui as suas próprias citações de origem?
Pare de ler quarenta páginas. Comece a ler quarenta TL;DRs — um por secção.
Largue um PDF, veja a estrutura aparecer, obtenha um TL;DR por secção com citações com âmbito por secção. Exporte para Word, Markdown ou de volta para PDF — estrutura intacta.
auto_awesomeAbrir o resumidor