Resumen consciente de la estructura

Un resumidor de contenido PDF que conserva el outlinesección por sección, no aplanado en un bloque.

La mayoría de los resumidores concatenan todo y devuelven un único párrafo que pierde la forma del documento. Este detecta Resumen, Métodos, Resultados, cláusulas y capítulos individualmente — y luego escribe un TL;DR por sección para que la jerarquía original sobreviva.

account_treeSalida jerárquica format_list_bulletedTL;DR por sección linkCitas acotadas a sección descriptionExportación DOCX / MD / PDF

Estructura preservada, no aplanada.

Un PDF de 40 páginas no son 40 páginas de una cosa — es un outline. El resumidor también debería devolver un outline.

La mayoría de los resumidores LLM segmentan un PDF, resumen cada chunk y concatenan el resultado en un párrafo en prosa. Esa salida es cómoda para tweets pero inútil para documentos que tienen forma — artículos de investigación, contratos, informes del consejo, manuales multicapítulo.

Un resumidor consciente de la estructura, en cambio, detecta primero la jerarquía real del documento — Resumen, Métodos, Resultados, Discusión, o Cláusula 1, Cláusula 2, Cláusula 3 — y escribe un TL;DR por cada sección detectada. La salida es ella misma un outline, espejo de la fuente.

La diferencia importa cuando necesitas encontrar algo. Con un blob plano, releer todo el resumen para localizar la parte sobre precios. Con TL;DRs por sección saltas directamente a "Cláusula 4 · Precios" y encuentras una respuesta de 2 líneas con un enlace al párrafo de origen.

blockSalida en bloque plano
account_treeConsciente de secciones
articleResumen
scienceMétodos
analyticsResultados
forumDiscusión

Hecho para documentos con forma.

Si tu PDF tiene capítulos, cláusulas, líneas de partida o bloques de agenda, un resumen por sección preserva lo que uno plano destruye.

science
Artículos de investigación
Estructura IMRyD preservada — Resumen, Introducción, Métodos, Resultados, Discusión, cada uno con su propio TL;DR y citas acotadas a sección.
IMRyD
gavel
Contratos
Cada cláusula se resume de forma independiente — Plazo, Precios, Responsabilidad, Terminación — para que escanees obligaciones cláusula a cláusula.
Por cláusula
balance
Escritos legales
Antecedentes de hecho, Argumento I, Argumento II, Conclusión — preservados como bloques discretos en lugar de fundidos en una narrativa única.
Por sección
trending_up
Informes financieros
Ingresos, Gastos operativos, Flujo de caja, Factores de riesgo — cada partida resumida con las cifras subyacentes adjuntas.
Líneas
groups
Transcripciones de reuniones
Los puntos de agenda se convierten en secciones — cada uno recibe un TL;DR de decisión y acción, así los asistentes ven qué se concluyó por tema.
Por agenda

Cómo funciona la detección de secciones.

La detección de encabezados es un problema de tipografía antes que de lenguaje. La pipeline lee la página como lo haría un diseñador y luego resume como lo haría un editor.

1
Parseo del PDF
Extrae la capa de texto con metadatos posicionales — cada span obtiene x, y, fontSize, weight y page. Los PDFs escaneados se pasan por OCR primero para que existan los mismos metadatos.
2
Detección de encabezados
Agrupa spans por tipografía: fuente más grande + peso más fuerte + espacio en blanco previo = candidato a encabezado. Patrones de numeración (1.1.2, I.A) confirman la profundidad jerárquica.
3
Agrupación semántica de bloques
Los párrafos del cuerpo se asignan al encabezado precedente más cercano. Para PDFs sin encabezados explícitos, los embeddings detectan cambios temáticos y sintetizan etiquetas de bloque.
4
Resumen abstractivo por sección
Cada bloque se resume de forma independiente con contexto acotado a sección — sin contaminación cruzada. Las citas se adjuntan con granularidad de párrafo dentro del bloque.

Formatos de salida — elige la forma que necesites.

La misma extracción jerárquica, tres modos de renderizado. Cambia entre ellos sin volver a resumir.

format_list_bulleted
TL;DR con bullets
Tres a cinco bullets por sección. Óptimo para escanear, presentaciones de briefing y digests de email de seguimiento donde los lectores necesitan hojear por tema.
Métodos
Pipeline de recuperación en dos etapas
N=412 PDFs clínicos muestreados
ROUGE-L como métrica primaria
subject
Párrafo ejecutivo
Un párrafo conciso por sección, escrito para lectores de prosa. Preserva la lógica conectiva entre hallazgos — útil para memos e informes.
Resultados
La variante consciente de secciones superó a los baselines planos por 18 puntos ROUGE-L y mantuvo una precisión de atribución de sección del 96% en documentos retenidos.
account_tree
Outline / mapa mental
Un árbol colapsable de secciones y subsecciones — ideal para PDFs largos donde quieres navegar primero y leer después.
Artículo
Resumen
Métodos
Muestreo
Pipeline
Resultados

Lo que obtienes vs. un resumen plano.

Ambos producen texto. Solo uno preserva el documento.

Bloque planoResumidor típico
Un párrafo para todo el documento
  • closePierde el outline. Métodos y Discusión se difuminan en la misma corriente de prosa.
  • closeCitas entre secciones. Una afirmación de Resultados puede atribuirse a un pasaje de Métodos.
  • closeSin navegación. Relees el resumen para encontrar un tema.
  • closeLa longitud colapsa el significado. Un contrato de 40 páginas se vuelve 200 palabras; las cláusulas desaparecen.
  • closeDifícil de exportar estructuralmente. El documento Word no tiene encabezados.
Consciente de seccionesEsta herramienta
Un TL;DR por sección detectada, jerarquía intacta
  • checkOutline preservado. Cada Resumen, Método, cláusula o capítulo tiene su propio bloque.
  • checkCitas acotadas a sección. Un bullet en Métodos cita solo pasajes de Métodos.
  • checkSalta al tema. Haz clic en "Cláusula 4" y lee 60 palabras en vez de reescanear todo el resumen.
  • checkLa longitud se adapta a la profundidad. Las secciones largas obtienen resúmenes más largos automáticamente.
  • checkExportación estructural. DOCX con estilos H1/H2, Markdown con niveles de encabezado adecuados.

Cuándo importa de verdad la conciencia de secciones.

Un memo de dos páginas no necesita esto. Un contrato de cuarenta sí.

menu_book
PDFs técnicos largos
Cuando el documento tiene 40+ páginas con fases distintas (antecedentes, diseño, evaluación), un resumen plano colapsa las fases en un único párrafo indiferenciado y pierdes la capacidad de hojear por tema.
group
Artículos multiautor
Cada colaborador escribió una sección distinta con voz distinta y terminología distinta. Los resúmenes por sección respetan esos límites en lugar de forzar una narrativa unificada falsa.
gavel
Contratos donde cada cláusula cuenta
En un MSA de 30 cláusulas, cada cláusula es una superficie de negociación independiente. Mezclar Precios y Terminación en el mismo bloque oculta justo lo que necesitas marcar para negociar.

Preguntas frecuentes

¿Cómo detecta el resumidor las secciones en un PDF?
La detección de secciones combina análisis tipográfico (saltos en tamaño de fuente, cambios de peso, uso de mayúsculas) con pistas posicionales (espaciado vertical, indentación, patrones de numeración como 1., 1.1, I., A.). El parser extrae un árbol de encabezados de la capa de texto del PDF, lo valida contra la geometría de página y agrupa los párrafos en la sección a la que pertenecen. El resultado es un outline jerárquico que impulsa el resumen por sección. Mira el flujo técnico para la pipeline de cuatro etapas.
¿Puedo obtener un resumen por capítulo en lugar de uno para todo el documento?
Sí — ese es el comportamiento por defecto. El resumidor trata cada sección detectada (capítulo, cláusula, bloque IMRyD, punto de agenda) como su propia unidad y produce un TL;DR independiente para ella. También obtienes un párrafo ejecutivo de resumen general arriba, pero el desglose por sección es la salida principal y puede exportarse por separado. Abre la herramienta en /es/summarize-pdf-ai para probarla.
¿Y si mi PDF no tiene encabezados explícitos?
Para documentos sin encabezados tipográficos (prosa plana, artículos escaneados, transcripciones), la herramienta recurre a agrupación semántica de bloques: los párrafos se agrupan por cambio temático detectado en embeddings y luego se les asignan etiquetas de sección sintéticas. La salida sigue siendo jerárquica — obtienes TL;DRs agrupados por tema en lugar de resúmenes arbitrarios chunk a chunk.
¿Puedo exportar los resúmenes por sección como un documento Word?
Sí. Las opciones de exportación incluyen Word (.docx) con estilos de encabezado adecuados, Markdown con jerarquía H1/H2 intacta, texto plano y PDF. La exportación a Word conserva la estructura de secciones para que puedas pegarla en una plantilla de informe o briefing sin reformatear. Si también necesitas el PDF original en forma editable, usa PDF a Word (local) junto al resumen.
¿Cada resumen de sección incluye sus propias citas de origen?
Sí. Cada TL;DR por sección lleva anclas de página y párrafo al PDF de origen, así un bullet del resumen de Métodos cita el pasaje exacto en Métodos (no algún punto en Resultados). Haz clic en cualquier bullet para saltar a su fragmento de origen resaltado en el visor en línea. Las citas están acotadas a la sección, lo que evita los errores de atribución entre secciones que los resumidores planos suelen cometer. Para profundizar en cualquier sección, cambia al modo chat y haz preguntas de seguimiento.

Deja de leer cuarenta páginas. Empieza a leer cuarenta TL;DRs — uno por sección.

Suelta un PDF, mira aparecer el outline, obtén un TL;DR por sección con citas acotadas a sección. Exporta a Word, Markdown o de vuelta a PDF — estructura intacta.

auto_awesomeAbrir el resumidor