होम›गाइड›स्कैन की हुई PDF पर OCR करें

PDF Pro OCR टूल से स्कैन की हुई PDF पर OCR कैसे करें — पेजों की छवियों को वास्तविक टेक्स्ट में बदलें।

⏱ 2 मिनट पढ़ें 🎯 आसान 🛠 PDF Pro OCR

एक स्कैन की हुई PDF दस्तावेज़ जैसी दिखती है, लेकिन कंप्यूटर के लिए यह सिर्फ तस्वीरों का ढेर है — आप कोई नाम नहीं चुन सकते, इनवॉइस नंबर नहीं खोज सकते, या स्क्रीन रीडर से नहीं पढ़वा सकते। OCR वह चरण है जो उन तस्वीरों से वास्तविक, चुनने योग्य टेक्स्ट निकालता है। यह गाइड पाँच चरणों में पूरा काम पूरी तरह आपके ब्राउज़र टैब में करती है।

यह क्यों मायने रखता है

अधिकांश "मुफ़्त" OCR टूल एक भी वर्ण पहचानने से पहले आपका स्कैन किया दस्तावेज़ सर्वर पर अपलोड करते हैं — और एक स्कैन अक्सर आपकी सबसे संवेदनशील फ़ाइल होती है: एक अनुबंध, पासपोर्ट, टैक्स रिटर्न। PDF Pro OCR टूल Tesseract पहचान इंजन को WebAssembly के रूप में टैब के अंदर चलाता है, इसलिए फ़ाइल सीधे डिस्क से पढ़ी जाती है, आपके CPU पर पहचानी जाती है, और नेटवर्क से कभी नहीं जाती।

आपको क्या चाहिए

एक आधुनिक ब्राउज़र (पिछले दो वर्षों का Chrome, Edge, Firefox, या Safari)
वह स्कैन की हुई या केवल-इमेज PDF जिस पर आप OCR करना चाहते हैं, अपने डिवाइस पर
यह जानकारी कि दस्तावेज़ किस भाषा में है — यह सटीकता तय करता है
कुछ मिनट — केवल-इमेज पेजों में धीमा पहचान पास लगता है, और किसी भाषा के पहले उपयोग पर एक छोटा पैक डाउनलोड होता है

पाँच चरण

OCR टूल खोलें

PDF Pro OCR टूल पर जाएँ। पेज Tesseract पहचान इंजन के साथ WebAssembly के रूप में बंडल होकर लोड होता है, आपके CPU पर चलने के लिए तैयार। कोई साइनअप नहीं, कोई ईमेल-कन्फ़र्म वॉल नहीं, कोई दैनिक पेज काउंटर नहीं — और आपका स्कैन भेजने के लिए कोई अपलोड एंडपॉइंट नहीं।

pdfpro.tools/ocr

OCR PDF — इस टैब में, लोकली

स्कैन किए गए पेजों को वास्तविक, चुनने योग्य टेक्स्ट में पहचानें।

यहाँ स्कैन की हुई PDF डालेंया ब्राउज़ करने के लिए क्लिक करें · कुछ अपलोड नहीं होता

अपनी स्कैन की हुई PDF चुनें

फ़ाइल को ड्रॉप ज़ोन पर खींचें या ब्राउज़ करने के लिए क्लिक करें। टूल इसे सीधे आपकी डिस्क से पढ़ता है और हर पेज का थंबनेल ग्रिड रेंडर करता है। यहीं टूल चुपचाप आपके पेजों को दो समूहों में बाँटता है: जिन पेजों में पहले से वास्तविक टेक्स्ट लेयर है, और केवल-इमेज पेज जिन्हें पूर्ण पहचान पास की ज़रूरत होगी।

पहचान भाषा चुनें

वह भाषा चुनें जो आपके दस्तावेज़ से मेल खाती हो। इंजन लैटिन-स्क्रिप्ट भाषाओं के साथ-साथ सिरिलिक, ग्रीक और अधिक को पहचानता है — और सही भाषा चुनना सबसे बड़ा सटीकता लाभ है जो आपके हाथ में है। किसी भाषा के पहले उपयोग पर, एक छोटी डेटा फ़ाइल (कुछ MB) डाउनलोड होती है और कैश हो जाती है, इसलिए उस भाषा में अगला रन तुरंत शुरू होता है।

पहचान भाषा

अंग्रेज़ीलैटिन स्क्रिप्ट · पैक कैश्ड

जर्मनलैटिन स्क्रिप्ट · पहले उपयोग पर डाउनलोड होता है

रूसीसिरिलिक स्क्रिप्ट · पहले उपयोग पर डाउनलोड होता है

+ अंग्रेज़ी पासवैकल्पिक · मिश्रित-भाषा स्कैन में मदद करता है

OCR चलाएँ

OCR चलाएँ पर क्लिक करें। टूल आपके पेजों से दो गति से गुज़रता है: जिस पेज में पहले से वास्तविक टेक्स्ट लेयर है वह तुरंत और सटीक निकाला जाता है, जबकि केवल-इमेज पेज आपके CPU पर धीमे पहचान पास से गुज़रते हैं। एक प्रगति संकेतक दिखाता है कि कौन सा पेज पढ़ा जा रहा है — फ़ोटो वाले पेजों का लंबा स्कैन सबसे धीमा मामला है, इसलिए थोड़ा इंतज़ार करें।

निकाला गया टेक्स्ट कॉपी करें या सेव करें

जब पास पूरा हो जाए, परिणाम वास्तविक, चुनने योग्य टेक्स्ट है — पेज की एक और तस्वीर नहीं। इसे चुनें, क्लिपबोर्ड पर कॉपी करें, या सेव करें, फिर किसी दस्तावेज़ में पेस्ट करें, खोजें, या अनुवादक या सारांशकर्ता को दें। कुछ भी साइनअप या अपग्रेड के पीछे बंद नहीं है; पहचाना गया टेक्स्ट दिखते ही आपका है।

निकाला गया टेक्स्ट · scan.pdf

चुनने योग्यCtrl+C वास्तविक वर्ण कॉपी करता है

खोज योग्यfind-in-page सभी पेजों पर काम करता है

सुलभस्क्रीन रीडर इसे पढ़ सकते हैं

निकाला गया टेक्स्ट कॉपी करें

सामान्य गलतियाँ और सावधानियाँ

धुंधली फ़ोटो से परफेक्ट नतीजे की उम्मीद करना। OCR सटीकता स्कैन गुणवत्ता से सीमित होती है। मुद्रित टेक्स्ट का साफ़, सीधा, ~300 DPI स्कैन बहुत अच्छी तरह पहचाना जाता है; खराब रोशनी में कोण पर लिया गया फ़ोन स्नैपशॉट नहीं होगा। टूल को दोष देने से पहले फिर से स्कैन करें।
गलत पहचान भाषा चुनना। सिरिलिक दस्तावेज़ पर अंग्रेज़ी पास चलाने से आत्मविश्वास से भरी बकवास निकलती है। भाषा को दस्तावेज़ से मिलाएँ — यह सबसे सस्ता सटीकता लाभ है।
हस्तलेखन पर OCR की कोशिश करना। इंजन मुद्रित टेक्स्ट के लिए ट्यून किया गया है। हस्तलिखित नोट्स, हस्ताक्षर और कर्सिव स्कैन कितना भी साफ़ हो, अविश्वसनीय होंगे।
पहला रन धीमा होने पर यह मानना कि यह टूटा है। किसी भाषा के पहले उपयोग पर, कुछ-मेगाबाइट डेटा पैक डाउनलोड होता है। यह एक बार की लागत है — यह कैश हो जाती है, और उस भाषा में बाद के रन तुरंत शुरू होते हैं।
इसे एक लूज़ इमेज फ़ाइल देना। टूल PDF फ़ाइलें लेता है। यदि आपके पास केवल फ़ोटो है, तो पहले इसे PDF में डालें — JPG to PDF कनवर्टर यह आपके ब्राउज़र में करता है — फिर परिणामी PDF पर OCR चलाएँ।

समस्या निवारण

कुछ पेज तुरंत क्यों पूरे हुए और कुछ में बहुत ज़्यादा समय क्यों लगा?

क्योंकि उन्हें अलग तरह से हैंडल किया गया। जिन पेजों में पहले से वास्तविक टेक्स्ट लेयर है वे OCR पूरी तरह छोड़ते हैं और तेज़, सटीक निष्कर्षण से गुज़रते हैं। केवल सच्चे केवल-इमेज पेज आपके CPU पर धीमे पहचान पास से गुज़रते हैं — इसलिए एक मिश्रित PDF दिखाई देते तरह से तेज़ और धीमी होती रहेगी।

पहचाने गए टेक्स्ट में त्रुटियाँ हैं। सटीकता कैसे सुधारें?

सटीकता लगभग पूरी तरह स्कैन पर निर्भर करती है। लगभग 300 DPI पर तेज़, सीधा और अच्छी रोशनी में फिर से स्कैन करें, सुनिश्चित करें कि पहचान भाषा दस्तावेज़ से मेल खाती है, और शुरू करने से पहले तिरछे पेजों को सीधा करें। साफ़ स्कैन पर मुद्रित टेक्स्ट बहुत अच्छी तरह पहचाना जाता है; कम कंट्रास्ट और धुंधलापन नुकसान करते हैं।

क्या मेरी स्कैन की गई फ़ाइल सर्वर पर अपलोड होती है?

नहीं। Tesseract इंजन आपके ब्राउज़र के अंदर चलता है, इसलिए स्कैन सीधे आपके डिवाइस से पढ़ी जाती है और कभी नहीं जाती। यदि आप इसकी पुष्टि करना चाहते हैं, तो DevTools खोलें, Network टैब पर जाएँ, और OCR चलाएँ — आपको शून्य फ़ाइल अपलोड दिखेंगे।

मेरा दस्तावेज़ दो भाषाओं में है। कौन सी चुनूँ?

दस्तावेज़ की प्रमुख भाषा चुनें और दूसरी पकड़ने के लिए वैकल्पिक अंग्रेज़ी पास जोड़ें। वास्तव में आधे-आधे पेज के लिए, वह संयोजन आमतौर पर किसी एक भाषा को अकेले चलाने से बेहतर होता है।

क्या ब्राउज़र बड़ा बहु-पेज स्कैन हैंडल कर सकता है?

हाँ — कोई कृत्रिम पेज सीमा नहीं है, क्योंकि पहचान आपके CPU का समय लेती है, सर्वर बिल नहीं। वास्तविक सीमा आपके ब्राउज़र की मेमोरी है, एक आधुनिक लैपटॉप पर लगभग 500 MB। कुछ-सौ-पेज स्कैन बस अधिक समय लेता है; फ़ोन पर, छोटे दस्तावेज़ों तक सीमित रहें।

स्कैन पर OCR करने के लिए तैयार हैं?

ब्राउज़र OCR टूल खोलें और अपनी स्कैन की हुई PDF को ऊपर के पाँच चरणों से चलाएँ।

टूल खोलें →