Yapı bilen özetleme

Taslağı koruyan bir PDF içerik özetleyici — bölüm bazında, yığına düzleştirilmemiş.

Çoğu özetleyici her şeyi birleştirir ve belgenin şeklini kaybeden tek bir paragraf döndürür. Bu araç Özet, Yöntem, Bulgular, maddeleri ve bölümleri ayrı ayrı tespit eder — sonra özgün hiyerarşi hayatta kalsın diye bölüm başına bir TL;DR yazar.

account_treeHiyerarşik çıktı format_list_bulletedBölüm başına TL;DR linkBölüm kapsamlı alıntılar descriptionDOCX / MD / PDF dışa aktarım

Yapı korundu, düzleştirilmedi.

40 sayfalık bir PDF, tek bir şeyin 40 sayfası değildir — bir taslaktır. Özetleyici de bir taslak döndürmelidir.

Çoğu LLM özetleyici bir PDF'i parçalar, her parçayı özetler ve sonucu tek bir nesir paragrafında birleştirir. Bu çıktı tweetler için uygundur ama şekli olan belgeler için işe yaramaz — araştırma makaleleri, sözleşmeler, yönetim kurulu raporları, çok bölümlü el kitapları.

Yapı bilen bir özetleyici bunun yerine önce belgenin gerçek hiyerarşisini tespit eder — Özet, Yöntem, Bulgular, Tartışma veya Madde 1, Madde 2, Madde 3 — ve tespit edilen bölüm başına bir TL;DR yazar. Çıktının kendisi bir taslaktır, kaynağı yansıtır.

Fark, bir şey aramanız gerektiğinde önemlidir. Düz bir yığınla, fiyatlandırma ile ilgili kısmı bulmak için tüm özeti yeniden okursunuz. Bölüm başına TL;DR'lerle doğrudan "Madde 4 · Fiyatlandırma"ya atlar ve kaynak paragrafa bağlantıyla 2 satırlık bir cevap bulursunuz.

blockDüz yığın çıktısı
account_treeBölüm bilen
articleÖzet
scienceYöntem
analyticsBulgular
forumTartışma

Şekli olan belgeler için tasarlandı.

PDF'inizin bölümleri, maddeleri, satır öğeleri veya gündem blokları varsa, bölüm başına özet düz olanın yok ettiği şeyi korur.

science
Araştırma makaleleri
IMRAD yapısı korunur — Özet, Giriş, Yöntem, Bulgular, Tartışma her biri bölüm kapsamlı alıntılarla kendi TL;DR'sini alır.
IMRAD
gavel
Sözleşmeler
Her madde bağımsız özetlenir — Süre, Fiyatlandırma, Sorumluluk, Fesih — böylece yükümlülükleri madde madde tarayabilirsiniz.
Madde başına
balance
Hukuki dilekçeler
Olgular Bildirgesi, Argüman I, Argüman II, Sonuç — tek bir anlatıya birleştirilmek yerine ayrı bloklar olarak korunur.
Bölümlü
trending_up
Finansal raporlar
Gelir, Faaliyet Giderleri, Nakit Akışı, Risk Faktörleri — her satır öğesi alttaki rakamlar ekli olarak özetlenir.
Satır öğeleri
groups
Toplantı transkriptleri
Gündem maddeleri bölümler hâline gelir — her biri bir karar ve eylem TL;DR'si alır, böylece katılımcılar konu başına neyin sonuçlandığını görür.
Gündem başına

Bölüm tespiti nasıl çalışır.

Başlık tespiti dil sorunu olmadan önce bir tipografi sorunudur. Boru hattı sayfayı bir tasarımcı gibi okur, sonra bir editör gibi özetler.

1
PDF ayrıştırma
Konum meta verisiyle metin katmanını çıkarın — her aralık x, y, fontSize, weight ve page alır. Aynı meta verinin var olması için taranmış PDF'ler önce OCR'lanır.
2
Başlık tespiti
Aralıkları tipografiyle kümeleyin: daha büyük yazı tipi + daha kalın ağırlık + öne boşluk = başlık adayı. Numaralandırma kalıpları (1.1.2, I.A) hiyerarşi derinliğini doğrular.
3
Anlamsal blok gruplama
Gövde paragrafları en yakın önceki başlığa atanır. Açık başlıkları olmayan PDF'ler için, gömmeler konu kaymalarını tespit eder ve blok etiketlerini sentezler.
4
Bölüm başına soyutlayıcı özet
Her blok bölüm kapsamlı bağlamla bağımsız özetlenir — çapraz sızıntı yok. Alıntılar blok içinde paragraf ayrıntısında eklenir.

Çıktı biçimleri — ihtiyacınız olan şekli seçin.

Aynı hiyerarşik çıkarım, üç görüntüleme modu. Yeniden özetlemeden aralarında geçiş yapın.

format_list_bulleted
Madde TL;DR
Bölüm başına üç ila beş madde. Tarama, brifing sunumları ve okuyucuların konu başına göz gezdirmesi gereken takip e-posta özetleri için optimal.
Yöntem
İki aşamalı getirme boru hattı
N=412 klinik PDF örneklendi
Birincil metrik ROUGE-L
subject
Yönetici paragrafı
Bölüm başına bir sıkı paragraf, nesir okuyucuları için yazılmış. Bulgular arasındaki bağlayıcı mantığı korur — memolar ve raporlar için kullanışlıdır.
Bulgular
Bölüm bilen değişken, düz tabanları 18 ROUGE-L puanıyla geçti ve tutulan belgelerde %96 bölüm atıf doğruluğunu korudu.
account_tree
Taslak / zihin haritası
Bölümlerin ve alt bölümlerin daraltılabilir bir ağacı — önce gezinip sonra okumak istediğiniz uzun PDF'ler için en iyisi.
Makale
Özet
Yöntem
Örnekleme
Boru hattı
Bulgular

Ne aldığınız vs düz bir özet.

Her ikisi de metin üretir. Yalnızca biri belgeyi korur.

Düz yığınTipik özetleyici
Tüm belge için tek paragraf
  • closeTaslağı kaybeder. Yöntem ve Tartışma aynı nesir akışına bulanır.
  • closeBölümler arası alıntılar. Bulgular'dan bir iddia Yöntem'deki bir pasaja atfedilebilir.
  • closeGezinme yok. Bir konu bulmak için özeti yeniden okursunuz.
  • closeUzunluk anlamı çökertir. 40 sayfalık bir sözleşme 200 kelime olur; maddeler kaybolur.
  • closeYapısal dışa aktarımı zor. Word belgesinde başlık yoktur.
Bölüm bilenBu araç
Tespit edilen bölüm başına bir TL;DR, hiyerarşi sağlam
  • checkTaslak korunur. Her Özet, Yöntem, madde veya bölüm kendi bloğuna sahiptir.
  • checkBölüm kapsamlı alıntılar. Yöntem'deki bir madde yalnızca Yöntem pasajlarını alıntılar.
  • checkKonuya atla. "Madde 4"e tıklayın ve tüm özeti yeniden taramak yerine 60 kelime okuyun.
  • checkUzunluk derinliğe uyum sağlar. Uzun bölümler otomatik olarak daha uzun özetler alır.
  • checkYapısal dışa aktarım. H1/H2 stilleriyle DOCX, uygun başlık seviyeleriyle Markdown.

Bölüm bilen ne zaman gerçekten önemlidir.

İki sayfalık bir memonun buna ihtiyacı yoktur. Kırk sayfalık bir sözleşmenin vardır.

menu_book
Uzun teknik PDF'ler
Belge ayrı aşamaları (arka plan, tasarım, değerlendirme) olan 40+ sayfa olduğunda, düz bir özet aşamaları tek farklılaşmamış bir paragrafa çökertir ve konuya göre göz gezdirme yeteneğini kaybedersiniz.
group
Çok yazarlı makaleler
Her katkıda bulunan farklı bir bölümü farklı bir sesle ve farklı terminolojiyle yazdı. Bölüm başına özetler, sahte birleşik bir anlatı zorlamak yerine bu sınırlara saygı gösterir.
gavel
Her maddenin önemli olduğu sözleşmeler
30 maddeli bir MSA'da her madde ayrı bir müzakere yüzeyidir. Fiyatlandırma ve Fesih'i aynı yığına koymak gerçekten redaksiyona ihtiyacınız olan şeyleri saklar.

Sık sorulan sorular

Özetleyici bir PDF'teki bölümleri nasıl tespit ediyor?
Bölüm tespiti, tipografi analizini (yazı tipi boyutu sıçramaları, kalınlık değişiklikleri, büyük harf kullanımı) konum ipuçlarıyla (dikey aralık, girinti, 1., 1.1, I., A. gibi numaralandırma kalıpları) birleştirir. Ayrıştırıcı, PDF'in metin katmanından bir başlık ağacı çıkarır, sayfa geometrisine karşı doğrular ve paragrafları ait oldukları bölümlere gruplar. Sonuç, bölüm başına özetlemeyi yöneten hiyerarşik bir taslaktır. Dört aşamalı boru hattı için teknik akışa bakın.
Tüm belge için tek özet yerine her bölüm için bir özet alabilir miyim?
Evet — bu varsayılan davranıştır. Özetleyici, tespit edilen her bölümü (bölüm, madde, IMRAD bloğu, gündem maddesi) kendi birimi olarak ele alır ve bunun için bağımsız bir TL;DR üretir. Üstte bir özet yönetici paragrafı da alırsınız, ancak bölüm başına döküm birincil çıktıdır ve kendi başına dışa aktarılabilir. Denemek için aracı /tr/summarize-pdf-ai adresinde açın.
PDF'imde açık başlıklar yoksa ne olur?
Tipografik başlıkları olmayan belgeler için (düz nesir, taranmış makaleler, transkriptler), araç anlamsal blok gruplamaya geri döner: paragraflar gömmelerde tespit edilen konu kaymasıyla kümelenir, sonra sentetik bölüm etiketleri atanır. Çıktı yine hiyerarşiktir — keyfi parça-parça özetler yerine konu gruplu TL;DR'ler alırsınız.
Bölüm özetlerini Word belgesi olarak dışa aktarabilir miyim?
Evet. Dışa aktarma seçenekleri arasında uygun başlık stilleri uygulanmış Word (.docx), H1/H2 hiyerarşisi sağlam Markdown, düz metin ve PDF bulunur. Word dışa aktarımı bölüm yapısını korur, böylece yeniden biçimlendirmeden bir rapor veya brifing şablonuna bırakabilirsiniz. Özgün PDF'i de düzenlenebilir biçimde gerekiyorsa, özetin yanında PDF'den Word'e (yerel) kullanın.
Her bölüm özeti kendi kaynak alıntılarını içeriyor mu?
Evet. Her bölüm başına TL;DR, kaynak PDF'e geri sayfa-paragraf bağlantıları taşır, böylece Yöntem özetindeki bir madde Yöntem'deki tam pasajı alıntılar (Bulgular'da bir yerde değil). Satır içi görüntüleyicide vurgulanan kaynak aralığına atlamak için herhangi bir maddeye tıklayın. Alıntılar bölüme kapsamlandırılmıştır, bu da düz özetleyicilerin yaygın olarak yaptığı bölümler arası atıf hatalarını önler. Herhangi bir bölüme daha derin inmek için sohbet moduna geçin ve takipler sorun.

Kırk sayfa okumayı bırakın. Kırk TL;DR okumaya başlayın — bölüm başına bir tane.

Bir PDF bırakın, taslağın belirmesini izleyin, bölüm kapsamlı alıntılarla bölüm başına TL;DR alın. Word, Markdown veya PDF'e geri dışa aktarın — yapı sağlam.

auto_awesomeÖzetleyiciyi aç