Un resumidor de contenido PDF que conserva el outline — sección por sección, no aplanado en un bloque.
La mayoría de los resumidores concatenan todo y devuelven un único párrafo que pierde la forma del documento. Este detecta Resumen, Métodos, Resultados, cláusulas y capítulos individualmente — y luego escribe un TL;DR por sección para que la jerarquía original sobreviva.
Estructura preservada, no aplanada.
Un PDF de 40 páginas no son 40 páginas de una cosa — es un outline. El resumidor también debería devolver un outline.
La mayoría de los resumidores LLM segmentan un PDF, resumen cada chunk y concatenan el resultado en un párrafo en prosa. Esa salida es cómoda para tweets pero inútil para documentos que tienen forma — artículos de investigación, contratos, informes del consejo, manuales multicapítulo.
Un resumidor consciente de la estructura, en cambio, detecta primero la jerarquía real del documento — Resumen, Métodos, Resultados, Discusión, o Cláusula 1, Cláusula 2, Cláusula 3 — y escribe un TL;DR por cada sección detectada. La salida es ella misma un outline, espejo de la fuente.
La diferencia importa cuando necesitas encontrar algo. Con un blob plano, releer todo el resumen para localizar la parte sobre precios. Con TL;DRs por sección saltas directamente a "Cláusula 4 · Precios" y encuentras una respuesta de 2 líneas con un enlace al párrafo de origen.
Hecho para documentos con forma.
Si tu PDF tiene capítulos, cláusulas, líneas de partida o bloques de agenda, un resumen por sección preserva lo que uno plano destruye.
Cómo funciona la detección de secciones.
La detección de encabezados es un problema de tipografía antes que de lenguaje. La pipeline lee la página como lo haría un diseñador y luego resume como lo haría un editor.
x, y, fontSize, weight y page. Los PDFs escaneados se pasan por OCR primero para que existan los mismos metadatos.1.1.2, I.A) confirman la profundidad jerárquica.Formatos de salida — elige la forma que necesites.
La misma extracción jerárquica, tres modos de renderizado. Cambia entre ellos sin volver a resumir.
Lo que obtienes vs. un resumen plano.
Ambos producen texto. Solo uno preserva el documento.
- closePierde el outline. Métodos y Discusión se difuminan en la misma corriente de prosa.
- closeCitas entre secciones. Una afirmación de Resultados puede atribuirse a un pasaje de Métodos.
- closeSin navegación. Relees el resumen para encontrar un tema.
- closeLa longitud colapsa el significado. Un contrato de 40 páginas se vuelve 200 palabras; las cláusulas desaparecen.
- closeDifícil de exportar estructuralmente. El documento Word no tiene encabezados.
- checkOutline preservado. Cada Resumen, Método, cláusula o capítulo tiene su propio bloque.
- checkCitas acotadas a sección. Un bullet en Métodos cita solo pasajes de Métodos.
- checkSalta al tema. Haz clic en "Cláusula 4" y lee 60 palabras en vez de reescanear todo el resumen.
- checkLa longitud se adapta a la profundidad. Las secciones largas obtienen resúmenes más largos automáticamente.
- checkExportación estructural. DOCX con estilos H1/H2, Markdown con niveles de encabezado adecuados.
Cuándo importa de verdad la conciencia de secciones.
Un memo de dos páginas no necesita esto. Un contrato de cuarenta sí.
Combínalo con el resto del stack de privacidad.
El resumen es una pieza — las otras herramientas se ocupan del documento alrededor.
Preguntas frecuentes
¿Cómo detecta el resumidor las secciones en un PDF?
¿Puedo obtener un resumen por capítulo en lugar de uno para todo el documento?
¿Y si mi PDF no tiene encabezados explícitos?
¿Puedo exportar los resúmenes por sección como un documento Word?
¿Cada resumen de sección incluye sus propias citas de origen?
Deja de leer cuarenta páginas. Empieza a leer cuarenta TL;DRs — uno por sección.
Suelta un PDF, mira aparecer el outline, obtén un TL;DR por sección con citas acotadas a sección. Exporta a Word, Markdown o de vuelta a PDF — estructura intacta.
auto_awesomeAbrir el resumidor