Resumen consciente de la estructura

Un resumidor de contenido PDF que conserva el outline — sección por sección, no aplanado en un bloque.

La mayoría de los resumidores concatenan todo y devuelven un único párrafo que pierde la forma del documento. Este detecta Resumen, Métodos, Resultados, cláusulas y capítulos individualmente — y luego escribe un TL;DR por sección para que la jerarquía original sobreviva.

account_treeSalida jerárquica format_list_bulletedTL;DR por sección linkCitas acotadas a sección descriptionExportación DOCX / MD / PDF

auto_awesomeAbrir el resumidor arrow_downwardCómo funciona la detección de secciones

articleResumen

scienceMétodos

analyticsResultados

forumDiscusión

article

Resumen · TL;DR

Estudio prueba el resumen basado en recuperación sobre 4k PDFs clínicos.

science

Métodos · TL;DR

Pipeline de dos etapas: detección de encabezados y luego pasada abstractiva por sección.

analytics

Resultados · TL;DR

+18 ROUGE-L sobre baselines planos; atribución de sección 96% precisa.

forum

Discusión · TL;DR

La salida que preserva el outline reduce el tiempo del revisor en PDFs largos un ~40%.

Estructura preservada, no aplanada.

Un PDF de 40 páginas no son 40 páginas de una cosa — es un outline. El resumidor también debería devolver un outline.

La mayoría de los resumidores LLM segmentan un PDF, resumen cada chunk y concatenan el resultado en un párrafo en prosa. Esa salida es cómoda para tweets pero inútil para documentos que tienen forma — artículos de investigación, contratos, informes del consejo, manuales multicapítulo.

Un resumidor consciente de la estructura, en cambio, detecta primero la jerarquía real del documento — Resumen, Métodos, Resultados, Discusión, o Cláusula 1, Cláusula 2, Cláusula 3 — y escribe un TL;DR por cada sección detectada. La salida es ella misma un outline, espejo de la fuente.

La diferencia importa cuando necesitas encontrar algo. Con un blob plano, releer todo el resumen para localizar la parte sobre precios. Con TL;DRs por sección saltas directamente a "Cláusula 4 · Precios" y encuentras una respuesta de 2 líneas con un enlace al párrafo de origen.

blockSalida en bloque plano

account_treeConsciente de secciones

articleResumen

scienceMétodos

analyticsResultados

forumDiscusión

Hecho para documentos con forma.

Si tu PDF tiene capítulos, cláusulas, líneas de partida o bloques de agenda, un resumen por sección preserva lo que uno plano destruye.

science

Artículos de investigación

Estructura IMRyD preservada — Resumen, Introducción, Métodos, Resultados, Discusión, cada uno con su propio TL;DR y citas acotadas a sección.

IMRyD

gavel

Contratos

Cada cláusula se resume de forma independiente — Plazo, Precios, Responsabilidad, Terminación — para que escanees obligaciones cláusula a cláusula.

Por cláusula

balance

Escritos legales

Antecedentes de hecho, Argumento I, Argumento II, Conclusión — preservados como bloques discretos en lugar de fundidos en una narrativa única.

Por sección

trending_up

Informes financieros

Ingresos, Gastos operativos, Flujo de caja, Factores de riesgo — cada partida resumida con las cifras subyacentes adjuntas.

Líneas

groups

Transcripciones de reuniones

Los puntos de agenda se convierten en secciones — cada uno recibe un TL;DR de decisión y acción, así los asistentes ven qué se concluyó por tema.

Por agenda

Cómo funciona la detección de secciones.

La detección de encabezados es un problema de tipografía antes que de lenguaje. La pipeline lee la página como lo haría un diseñador y luego resume como lo haría un editor.

Parseo del PDF

Extrae la capa de texto con metadatos posicionales — cada span obtiene x, y, fontSize, weight y page. Los PDFs escaneados se pasan por OCR primero para que existan los mismos metadatos.

Detección de encabezados

Agrupa spans por tipografía: fuente más grande + peso más fuerte + espacio en blanco previo = candidato a encabezado. Patrones de numeración (1.1.2, I.A) confirman la profundidad jerárquica.

Agrupación semántica de bloques

Los párrafos del cuerpo se asignan al encabezado precedente más cercano. Para PDFs sin encabezados explícitos, los embeddings detectan cambios temáticos y sintetizan etiquetas de bloque.

Resumen abstractivo por sección

Cada bloque se resume de forma independiente con contexto acotado a sección — sin contaminación cruzada. Las citas se adjuntan con granularidad de párrafo dentro del bloque.

Formatos de salida — elige la forma que necesites.

La misma extracción jerárquica, tres modos de renderizado. Cambia entre ellos sin volver a resumir.

format_list_bulleted

TL;DR con bullets

Tres a cinco bullets por sección. Óptimo para escanear, presentaciones de briefing y digests de email de seguimiento donde los lectores necesitan hojear por tema.

Métodos

Pipeline de recuperación en dos etapas

N=412 PDFs clínicos muestreados

ROUGE-L como métrica primaria

subject

Párrafo ejecutivo

Un párrafo conciso por sección, escrito para lectores de prosa. Preserva la lógica conectiva entre hallazgos — útil para memos e informes.

Resultados

La variante consciente de secciones superó a los baselines planos por 18 puntos ROUGE-L y mantuvo una precisión de atribución de sección del 96% en documentos retenidos.

account_tree

Outline / mapa mental

Un árbol colapsable de secciones y subsecciones — ideal para PDFs largos donde quieres navegar primero y leer después.

Artículo

Resumen

Métodos

Muestreo

Pipeline

Resultados

Lo que obtienes vs. un resumen plano.

Ambos producen texto. Solo uno preserva el documento.

Bloque planoResumidor típico

Un párrafo para todo el documento

closePierde el outline. Métodos y Discusión se difuminan en la misma corriente de prosa.
closeCitas entre secciones. Una afirmación de Resultados puede atribuirse a un pasaje de Métodos.
closeSin navegación. Relees el resumen para encontrar un tema.
closeLa longitud colapsa el significado. Un contrato de 40 páginas se vuelve 200 palabras; las cláusulas desaparecen.
closeDifícil de exportar estructuralmente. El documento Word no tiene encabezados.

Consciente de seccionesEsta herramienta

Un TL;DR por sección detectada, jerarquía intacta

checkOutline preservado. Cada Resumen, Método, cláusula o capítulo tiene su propio bloque.
checkCitas acotadas a sección. Un bullet en Métodos cita solo pasajes de Métodos.
checkSalta al tema. Haz clic en "Cláusula 4" y lee 60 palabras en vez de reescanear todo el resumen.
checkLa longitud se adapta a la profundidad. Las secciones largas obtienen resúmenes más largos automáticamente.
checkExportación estructural. DOCX con estilos H1/H2, Markdown con niveles de encabezado adecuados.

Cuándo importa de verdad la conciencia de secciones.

Un memo de dos páginas no necesita esto. Un contrato de cuarenta sí.

menu_book

PDFs técnicos largos

Cuando el documento tiene 40+ páginas con fases distintas (antecedentes, diseño, evaluación), un resumen plano colapsa las fases en un único párrafo indiferenciado y pierdes la capacidad de hojear por tema.

group

Artículos multiautor

Cada colaborador escribió una sección distinta con voz distinta y terminología distinta. Los resúmenes por sección respetan esos límites en lugar de forzar una narrativa unificada falsa.

gavel

Contratos donde cada cláusula cuenta

En un MSA de 30 cláusulas, cada cláusula es una superficie de negociación independiente. Mezclar Precios y Terminación en el mismo bloque oculta justo lo que necesitas marcar para negociar.

Combínalo con el resto del stack de privacidad.

El resumen es una pieza — las otras herramientas se ocupan del documento alrededor.

Preguntas frecuentes

¿Cómo detecta el resumidor las secciones en un PDF?

La detección de secciones combina análisis tipográfico (saltos en tamaño de fuente, cambios de peso, uso de mayúsculas) con pistas posicionales (espaciado vertical, indentación, patrones de numeración como 1., 1.1, I., A.). El parser extrae un árbol de encabezados de la capa de texto del PDF, lo valida contra la geometría de página y agrupa los párrafos en la sección a la que pertenecen. El resultado es un outline jerárquico que impulsa el resumen por sección. Mira el flujo técnico para la pipeline de cuatro etapas.

¿Puedo obtener un resumen por capítulo en lugar de uno para todo el documento?

Sí — ese es el comportamiento por defecto. El resumidor trata cada sección detectada (capítulo, cláusula, bloque IMRyD, punto de agenda) como su propia unidad y produce un TL;DR independiente para ella. También obtienes un párrafo ejecutivo de resumen general arriba, pero el desglose por sección es la salida principal y puede exportarse por separado. Abre la herramienta en /es/summarize-pdf-ai para probarla.

¿Y si mi PDF no tiene encabezados explícitos?

Para documentos sin encabezados tipográficos (prosa plana, artículos escaneados, transcripciones), la herramienta recurre a agrupación semántica de bloques: los párrafos se agrupan por cambio temático detectado en embeddings y luego se les asignan etiquetas de sección sintéticas. La salida sigue siendo jerárquica — obtienes TL;DRs agrupados por tema en lugar de resúmenes arbitrarios chunk a chunk.

¿Puedo exportar los resúmenes por sección como un documento Word?

Sí. Las opciones de exportación incluyen Word (.docx) con estilos de encabezado adecuados, Markdown con jerarquía H1/H2 intacta, texto plano y PDF. La exportación a Word conserva la estructura de secciones para que puedas pegarla en una plantilla de informe o briefing sin reformatear. Si también necesitas el PDF original en forma editable, usa PDF a Word (local) junto al resumen.

¿Cada resumen de sección incluye sus propias citas de origen?

Sí. Cada TL;DR por sección lleva anclas de página y párrafo al PDF de origen, así un bullet del resumen de Métodos cita el pasaje exacto en Métodos (no algún punto en Resultados). Haz clic en cualquier bullet para saltar a su fragmento de origen resaltado en el visor en línea. Las citas están acotadas a la sección, lo que evita los errores de atribución entre secciones que los resumidores planos suelen cometer. Para profundizar en cualquier sección, cambia al modo chat y haz preguntas de seguimiento.

Deja de leer cuarenta páginas. Empieza a leer cuarenta TL;DRs — uno por sección.

Suelta un PDF, mira aparecer el outline, obtén un TL;DR por sección con citas acotadas a sección. Exporta a Word, Markdown o de vuelta a PDF — estructura intacta.

auto_awesomeAbrir el resumidor