Taranmış bir PDF'e OCR nasıl uygulanır — PDF Pro OCR aracıyla sayfa görüntülerini gerçek metne dönüştürmek.
Taranmış bir PDF belgeye benzer, ancak bir bilgisayar için yalnızca bir yığın resimden ibarettir — bir adı seçemez, bir fatura numarasını arayamaz veya bir ekran okuyucunun okumasını sağlayamazsınız. OCR, o resimlerin içinden gerçek, seçilebilir metni geri çekip çıkaran adımdır. Bu kılavuz, tamamen tarayıcı sekmenizde çalışan işin tamamını beş adımda anlatır.
İhtiyacınız olanlar
- Modern bir tarayıcı (son iki yıl içindeki Chrome, Edge, Firefox veya Safari)
- OCR uygulamak istediğiniz taranmış veya yalnızca görüntü içeren PDF, cihazınızda
- Belgenin hangi dilde olduğuna dair bir fikir — doğruluğu bu belirler
- Birkaç dakika — yalnızca görüntü içeren sayfalar daha yavaş bir tanıma geçişi gerektirir ve bir dilin ilk kullanımında küçük bir paket indirilir
Beş adım
OCR aracını açın
PDF Pro OCR aracına gidin. Sayfa, Tesseract tanıma motoru WebAssembly olarak paketlenmiş şekilde yüklenir ve işlemcinizde çalışmaya hazırdır. Kayıt yok, e-posta doğrulama duvarı yok, günlük sayfa sayacı yok — ve taramanızı göndereceğiniz bir yükleme uç noktası da yok.
Taranmış PDF'inizi seçin
Dosyayı bırakma alanına sürükleyin veya göz atmak için tıklayın. Araç dosyayı doğrudan diskinizden okur ve her sayfanın küçük resimlerinden oluşan bir ızgara oluşturur. Araç burada ayrıca sayfalarınızı sessizce iki gruba ayırır: zaten gerçek bir metin katmanı taşıyan sayfalar ve tam tanıma geçişi gerektirecek yalnızca görüntü içeren sayfalar.
Tanıma dilini seçin
Belgenize uyan dili seçin. Motor, Latin alfabesi dillerinin yanı sıra Kiril, Yunan ve daha fazlasını tanır — ve doğru dili seçmek elinizdeki en büyük doğruluk kaldıracıdır. Belirli bir dili ilk kez kullandığınızda küçük bir veri dosyası (birkaç MB) indirilir ve ardından önbelleğe alınır; böylece o dildeki sonraki çalıştırma anında başlar.
OCR'yi çalıştırın
OCR'yi Çalıştır düğmesine tıklayın. Araç sayfalarınızı iki farklı hızda işler: zaten gerçek bir metin katmanı olan herhangi bir sayfa anında ve birebir çıkarılır, yalnızca görüntü içeren sayfalar ise işlemcinizde daha yavaş tanıma geçişinden geçer. Bir ilerleme göstergesi hangi sayfanın okunduğunu gösterir — fotoğraflanmış sayfalardan oluşan uzun bir tarama en yavaş durumdur, bu yüzden ona biraz zaman tanıyın.
Çıkarılan metni kopyalayın veya kaydedin
Geçiş tamamlandığında sonuç gerçek, seçilebilir bir metindir — sayfanın bir başka resmi değil. Onu seçin, panoya kopyalayın veya dışa kaydedin; ardından bir belgeye yapıştırın, içinde arama yapın ya da bir çevirmene veya özetleyiciye verin. Hiçbir şey bir kayıt veya yükseltme arkasında kilitli değildir; tanınan metin ortaya çıktığı anda sizindir.
Çıkarılan metni kopyalaSık yapılan hatalar ve tuzaklar
- Bulanık bir fotoğraftan kusursuzluk beklemek. OCR doğruluğu, tarama kalitesiyle sınırlıdır. Temiz, düz, ~300 DPI'lık basılı metin taraması çok iyi tanınır; loş ışıkta açılı çekilmiş bir telefon fotoğrafı tanınmaz. Aracı suçlamadan önce yeniden tarayın.
- Yanlış tanıma dilini seçmek. Kiril alfabeli bir belgede İngilizce geçişi çalıştırmak, kendinden emin bir saçmalık üretir. Dili belgeye eşleştirin — bu, mevcut en ucuz doğruluk kazancıdır.
- El yazısına OCR uygulamaya çalışmak. Motor basılı metne göre ayarlanmıştır. El yazısı notlar, imzalar ve italik yazılar, tarama ne kadar temiz olursa olsun güvenilmez olacaktır.
- Yavaş olduğu için ilk çalıştırmanın bozuk olduğunu sanmak. Bir dili ilk kez kullandığınızda birkaç megabaytlık bir veri paketi indirilir. Bu tek seferlik bir maliyettir — önbelleğe alınır ve o dildeki sonraki çalıştırmalar anında başlar.
- Ona ayrı bir görüntü dosyası vermek. Araç PDF dosyalarını alır. Yalnızca bir fotoğrafınız varsa önce onu bir PDF'e koyun — JPG'den PDF'e dönüştürücü bunu tarayıcınızda yapar — ardından elde edilen PDF'te OCR çalıştırın.
Sorun giderme
Bazı sayfalar neden anında bitti, bazıları çok daha uzun sürdü?
Çünkü farklı şekilde işlendiler. Zaten gerçek bir metin katmanı içeren sayfalar OCR'yi tamamen atlar ve hızlı, birebir bir çıkarmadan geçer. Yalnızca gerçek anlamda görüntü içeren sayfalar işlemcinizde daha yavaş tanıma geçişinden geçer — bu yüzden karışık bir PDF, çalışırken gözle görülür biçimde hızlanıp yavaşlar.
Tanınan metinde hatalar var. Doğruluğu nasıl artırabilirim?
Doğruluk neredeyse tamamen taramaya bağlıdır. Yaklaşık 300 DPI'da keskin, düz ve iyi aydınlatılmış şekilde yeniden tarayın, tanıma dilinin belgeyle eşleştiğinden emin olun ve başlamadan önce eğik sayfaların eğimini düzeltin. Temiz bir taramadaki basılı metin çok iyi tanınır; zarar veren şey düşük kontrast ve bulanıklıktır.
Taranan dosyam bir sunucuya yükleniyor mu?
Hayır. Tesseract motoru tarayıcınızın içinde çalışır; böylece tarama doğrudan cihazınızdan okunur ve onu hiçbir zaman terk etmez. Bunu doğrulamak isterseniz DevTools'u açın, Network sekmesine geçin ve OCR çalıştırın — sıfır dosya yüklemesi göreceksiniz.
Belgem iki dilde. Hangisini seçmeliyim?
Belgenin baskın dilini seçin ve ikincil dili yakalamak için isteğe bağlı İngilizce geçişini ekleyin. Gerçekten yarı yarıya iki dilli bir sayfa için bu kombinasyon genellikle her iki dili tek başına çalıştırmaktan daha iyi sonuç verir.
Tarayıcı büyük, çok sayfalı bir taramayı kaldırabilir mi?
Evet — yapay bir sayfa sınırı yoktur, çünkü tanıma işlemcinizin zamanına mal olur, bir sunucu faturasına değil. Asıl tavan tarayıcınızın belleğidir; modern bir dizüstü bilgisayarda kabaca 500 MB. Birkaç yüz sayfalık bir tarama yalnızca daha uzun sürer; bir telefonda kısa belgelerle sınırlı kalın.
Bir taramaya OCR uygulamaya hazır mısınız?
Tarayıcı OCR aracını açın ve taranmış PDF'inizi yukarıdaki beş adımdan geçirin.