स्क्यान र ओसीआर

शुभ दोहोरो

सम्भवतः हामी प्रत्येकले कार्यको सामना गर्यौं जब तपाईले इलेक्ट्रोनिक फारममा पेपर कागजात अनुवाद गर्न आवश्यक छ। यो विशेष रूपमा आवश्यक छ जो अध्ययनका लागि, दस्तावेजको साथ काम गर्नुहोस्, इलेक्ट्रोनिक शब्दकोशहरू प्रयोग गरी पाठहरू अनुवाद गर्नुहोस्।

यस लेखमा म यस प्रक्रियाको केही आधारभूत साझा गर्न चाहन्छु। सामान्यमा, स्क्यानिङ र पाठ मान्यता धेरै समयको भइरहेको छ, किनकि प्रायः अपरेसनहरू म्यानुअल रूपमा हुनुपर्छ। हामी कसरी पत्ता लगाउन प्रयास गर्नेछौं, कसरि र किन?

सबैले तुरुन्तै एक कुरा बुझ्दछन्। स्क्यानिङ पछि (स्क्यानरमा सबै पानाहरू फिटिंग) तपाईंको BMP, JPG, PNG, GIF को तस्बिरहरू हुनेछ (त्यहाँ अन्य ढाँचाहरू हुन सक्छ)। यस तस्वीरबाट तपाईलाई पाठ प्राप्त गर्न आवश्यक छ - यो प्रक्रियालाई मान्यता भनिन्छ। यो क्रममा, र तल प्रस्तुत गरिनेछ।

सामग्री

स्क्यानिङ र मान्यताको लागि के आवश्यक छ?
2. पाठ स्क्यानिङ विकल्पहरू
3. कागजातको पाठको पहिचान
- 3.1 पाठ
- 3.2 तस्बिरहरू
- 3.3 तालिकाहरू
- 3.4 अनावश्यक वस्तुहरू
4. PDF / DJVU फाइलहरूको पहिचान
5. त्रुटि जाँच र कार्य परिणाम बचत

स्क्यानिङ र मान्यताको लागि के आवश्यक छ?

1) स्क्यानर

मुद्रित कागजातहरूलाई पाठ ढाँचामा अनुवाद गर्न, तपाइँ पहिला स्क्यानर चाहिन्छ र तदनुसार, "देशी" कार्यक्रमहरू र ड्राइभरहरू जुनसँगै गए। तिनीहरूसँग तपाईंले कागजात स्क्यान गर्न र यसको प्रशोधनका लागि सुरक्षित गर्न सक्नुहुनेछ।

तपाइँ अन्य एनालॉगहरू प्रयोग गर्न सक्नुहुन्छ, तर किटमा स्क्यानरसँग आए सफ्टवेयर सामान्यतया छिटो हुन्छ र थप विकल्पहरू छन्।

तपाईसँग कस्तो प्रकारको स्क्यानर निर्भर छ - कामको गति महत्त्वपूर्ण हुन सक्छ। त्यहाँ स्क्यानरहरू छन् जुन पानाबाट 10 सेकेण्डमा तस्विर प्राप्त गर्न सक्छ, त्यहाँहरू जसले 30 सेकेन्डमा पाउनेछ। यदि तपाइँ 200-300 पानाहरूमा पुस्तक स्क्यान गर्नुहुन्छ - मलाई लाग्छ यो गणना गर्न गाह्रो छैन कि कति पटक समय फरक हुनेछ?

2) मान्यताको लागि कार्यक्रम

हाम्रो लेखमा, म तपाईंलाई एक राम्रो कार्यक्रममा स्क्यानिङ र पूर्ण रूपमा कुनै कागजातहरू - एबीबी फाइनर रेडर को रुपमा देखाउँछु। देखि कार्यक्रम भुक्तानी गरिन्छ, त्यसोभए म तुरुन्तै अर्कोको लिङ्क दिनेछु - यसको कोनी फारमको स्वतन्त्र एनालगइन। ठीक छ, म तिनीहरूलाई तुलना गर्नुहुन्न, यस तथ्यको कारणले गर्दा FineReader सबै आदरमा जित्छ, म यो सबै प्रयास गर्न सिफारिस गर्छु।

ABBYY FineReader 11

आधिकारिक साइट: //www.abbyy.ru/

यसको दैलोको उत्कृष्ट प्रोग्राम। यो चित्रमा पाठ पहिचान गर्न डिजाइन गरिएको छ। धेरै विकल्पहरू र सुविधाहरू बनाइयो। यसले फन्टहरूको गुच्छालाई पार्स गर्न सक्दछ, हस्तलेखन संस्करणहरूलाई पनि समर्थन गर्दछ (यद्यपि मैले व्यक्तिगत रूपमा यसलाई प्रयास गरेन भने, मलाई लाग्छ कि यो हस्तलेखन संस्करणमा अज्ञात रूपमा चिन्न सक्दछ, जब सम्म तपाईसँग सही कल्याणिक हस्तलेखन छैन)। उनको साथ काम गर्ने बारे थप जानकारी तल छलफल गरिनेछ। हामी यहाँ पनि नोट गर्छौं कि लेखमा कार्यक्रम 11 संस्करणहरूमा आवरण गर्नेछ।

एक नियमको रूपमा, ABBYY FineReader को विभिन्न संस्करणहरू एक-अर्का फरक फरक छैनन्। तपाईं सजिलै संग अन्यमा पनि गर्न सक्नुहुन्छ। मुख्य मतभेद सुविधा, गति को गति र यसको क्षमतामा हुन सक्छ। उदाहरणको लागि, अघिल्लो संस्करणहरू PDF कागजात र DJVU खोल्न इन्कार गर्दै ...

3) स्क्यान गर्न कागजातहरू

हो, त्यसो भए, मैले अलग-अलग स्तम्भमा कागजातहरू निकाल्ने निर्णय गरे। अधिकांश अवस्थामा, कुनै पाठ्यपुस्तकहरू, समाचार पत्रहरू, लेखहरू, पत्रिकाहरू, आदि स्क्यान गर्नुहोस् ती किताबहरू र साहित्यहरू जुन मागमा छ। म के गर्दैछु? व्यक्तिगत अनुभवबाट, म भन्न सक्छु कि तपाई स्क्यान गर्न चाहानुहुन्छ - पहिले नै नेटमा हुन सक्छ! मैले कति पटक समय बचत गरेँ जब मैले एउटा पुस्तक वा सञ्जालमा पहिले नै स्क्यान गरेको भेट्टें। मैले पाठलाई कागजातमा प्रतिलिपि गर्न र यसको साथ जारी राख्नुपर्छ।

यो सरल सल्लाह बाट - तपाईंले केहि स्क्यान गर्नु अघि, कसैले कसैलाई स्क्यान गरेको छ भने जाँच्नुहोस् र तपाईंलाई आफ्नो समय बर्बाद गर्न आवश्यक छैन।

2. पाठ स्क्यानिङ विकल्पहरू

यहाँ, म स्क्यानरको लागि तपाईंको ड्राइभरको बारेमा कुरा गर्नेछु, कार्यक्रमहरू जुनसँगै गएका थिए किनभने सबै स्क्यानर मोडेल फरक छन्, सफ्टवेयर पनि फरक फरक छ र अनुमान लगाउन र अझ स्पष्ट रूपमा प्रदर्शन कसरी गर्ने काम अवास्तविक हो।

तर सबै स्क्यानरहरू त्यहि सेटिङहरू छन् जसले तपाईंको कामको गति र गुणस्तरलाई असर गर्न सक्छ। तिनीहरूका बारेमा यहाँ म यहाँ कुरा गर्नेछु। म क्रम क्रमबद्ध गर्नेछु।

1) स्क्यान गुणस्तर - डीपीआई

पहिलो, 300 डीपीआई भन्दा कम विकल्पहरूमा स्क्यान गुणस्तर सेट गर्नुहोस्। यो पनि सम्भव छ कि, केहि थप राख्न को लागि सल्लाहकार छ। DPI सूचक उच्च छ, स्पष्ट छ कि तपाईंको तस्वीर बन्द हुनेछ, र त्यसैले, थप प्रशोधन छिटो हुनेछ। यसको अतिरिक्त, उच्च स्क्यानको गुण - तपाईले पछि कम गल्तीहरू सच्याउनु पर्छ।

उत्तम विकल्प प्रदान गर्दछ, सामान्यतया 300-400 डीपीआई।

2) क्रमांकता

यो प्यारामिटरले स्क्यानको समयलाई धेरै असर गर्छ (जसरी पनि, डीपीआईले पनि असर गर्दछ, तर तिनीहरू धेरै बलियो हुन्छन्, र मात्र जब प्रयोगकर्ताले उच्च मानहरू सेट गर्दछ)।

सामान्य रूपमा त्यहाँ तीन मोडहरू छन्:

- कालो र सेतो (सादा पाठको लागि सही);

- खैरो (टेबल र तस्वीरहरूसँग पाठको लागि उपयुक्त);

- रङ (रङ्ग पत्रिकाहरू, पुस्तकहरू, सामान्य रूपमा, कागजातहरू, रङ महत्त्वपूर्ण छ)।

सामान्यतया स्क्यान समय रंगको छनौटमा निर्भर गर्दछ। आखिर, यदि तपाइँसँग एक ठूलो कागजात छ भने, पृष्ठमा अतिरिक्त 5-10 सेकेन्ड पनि पूर्ण रूपमा परिणाम हुनेछ ...

3) तस्बिरहरू

तपाईंले कागजात न केवल स्क्यानिङ गरेर प्राप्त गर्न सक्नुहुनेछ, तर यसको तस्वीर लिनु पनि। एक नियमको रूपमा, यस अवस्थामा तपाईंसँग केहि अन्य समस्या हुनेछ: छवि विरूपण, धमिलो। यसको कारणले, यो लामो समय अगाडी बढि सम्पादन र प्राप्त पाठको प्रशोधन गर्न आवश्यक पर्दछ। व्यक्तिगत रूपमा, म यस व्यवसायको लागि क्यामेराहरू प्रयोग गर्न सिफारिस गर्दैन।

नोट गर्न महत्त्वपूर्ण छ कि हरेक यस्तो कागजात पहिचान गरिनेछ, किनभने स्क्यान गुणस्तर उहाँ अत्यन्तै कम हुन सक्नुहुनेछ ...

3. कागजातको पाठको पहिचान

हामी मान्दछौं कि तपाईले प्राप्त गरेको स्क्यान गरिएको पृष्ठहरु स्क्यान गरियो। प्राय: तिनीहरू ढाँचा हुन्: tif, bmb, jpg, png। सामान्यतया, ABBYY Fine रेडरका लागि - यो धेरै महत्त्वपूर्ण छैन ...

ABBYY FineReader, एक नियमको रूपमा यो तस्वीरमा खोल्न पछि, कम्प्यूटरमा क्षेत्रहरू चयन गर्न सुरु र तिनीहरूलाई चिन्ता। तर कहिलेकाहिँ उसले यसलाई गलत गर्दछ। यसको लागि हामी इच्छित इच्छित क्षेत्रहरूको चयनलाई विचार गर्दछौं।

यो महत्त्वपूर्ण छ! सबैलाई तुरुन्तै थाहा छैन कि कार्यक्रममा एक कागजात खोल्न पछि, स्रोत कागजात विन्डोमा बाँयामा प्रदर्शित गरिएको छ, जसमा तपाईँले फरक क्षेत्रहरूलाई हाइलाइट गर्नुहुन्छ। "पहिचान" बटनमा क्लिक गरेपछि दाँयामा सञ्झ्यालमा कार्यक्रमले तपाइँलाई समाप्त पाठ ल्याउनेछ। मान्यता पछि, बाटोबाट, यो FineReader मा त्रुटिहरूको लागि पाठ जाँच गर्न को लागी उचित छ।

3.1 पाठ

यो क्षेत्र पाठ हाइलाइट गर्न प्रयोग गरिन्छ। तस्वीरहरू र तालिकाहरू यसलाई हटाइनु पर्दछ। दुर्लभ र असामान्य फन्टहरू म्यानुअल रूपमा प्रविष्ट हुनुपर्छ।

पाठ क्षेत्र चयन गर्न, FineReader को माथि प्यानलमा ध्यान दिनुहोस्। त्यहाँ एउटा बटन "T" छ (हेर्नुहोस्। स्क्रीनशट तल, माउस बटन यो बटनमा मात्र छ)। त्यसमा क्लिक गर्नुहोस्, त्यसपछि चित्रमा तल्लो स्तरको आयताकार क्षेत्र चयन गर्नुहोस् जुन पाठ स्थित छ। वैसे, केहि अवस्थाहरुमा तपाईंलाई 2-3 को पाठ ब्लकहरू सिर्जना गर्न आवश्यक छ, र कहिलेकाँही 10-12 प्रति पृष्ठ, किनभने पाठ ढाँचा फरक हुन सक्छ र एक क्षेत्रको साथ सम्पूर्ण क्षेत्र चयन नगर्नुहोस्।

यो नोट गर्न महत्त्वपूर्ण छ कि छविहरू पाठ क्षेत्रमा पर्दैन! भविष्यमा, यो तपाईंलाई धेरै समय बचत हुनेछ ...

3.2 तस्बिरहरू

छविहरू हाइलाइट गर्न प्रयोग गरी ती क्षेत्रहरू जुन खराब गुणस्तर वा असामान्य फन्टको कारण पहिचान गर्न गाह्रो हुन्छ।

तल स्क्रिनसटमा, माउस सूचक "चित्र" क्षेत्र चयन गर्न बटनमा अवस्थित छ। वैसे, पृष्ठको कुनैपनि भाग यस क्षेत्रमा चयन गर्न सकिन्छ, र FineReader यसलाई सामान्य छविको रूपमा कागजातमा सम्मिलित गर्नेछ। Ie बस "मूर्ख" प्रतिलिपि हुनेछ ...

सामान्यतया, यो क्षेत्रलाई गैर-मानक पाठ र फन्ट, आफैं छविहरू हाइलाइट गर्नको लागि खराब स्क्यान गरिएको तालिकाहरूलाई हाइलाइट गर्न प्रयोग गरिन्छ।

3.3 तालिकाहरू

तल स्क्रिनसट तालिकाहरू हाइलाइट गर्नको लागि बटन देखाउँदछ। सामान्यतया, म व्यक्तिगत रूपमा यसलाई प्रयोग गर्दछु। तथ्य यो छ कि तपाइँसँग नियमित रूपमा वास्तवमा (वास्तवमा) तालिकामा प्रत्येक रेखालाई आकर्षित गर्नु पर्दछ र कार्यक्रम र के कार्यक्रम र कार्यक्रममा देखाउनु पर्छ। यदि तालिका सानो छ र राम्रो गुणस्तरमा छैन भने, म यी उद्देश्यका लागि "चित्र" क्षेत्र प्रयोग गर्न सुझाव दिन्छु। यसैले धेरै समय बचत गरिसकेपछि, र त्यसोभए तपाईं छिट्टै टेबुलको आधारमा एउटा टेबलमा टेबल बनाउन सक्नुहुन्छ।

3.4 अनावश्यक वस्तुहरू

टिप्पणी गर्न महत्त्वपूर्ण छ। कहिलेकाहीँ त्यहाँ पृष्ठमा अनावश्यक तत्वहरू छन् जुन पाठलाई चिन्न गाह्रो बनाउन गाह्रो हुन्छ, वा तपाईँलाई इच्छित क्षेत्र चयन गर्न अनुमति नदिनुहोस्। तिनीहरू सबै "eraser" को प्रयोग गरेर हटाउन सकिन्छ।

यो गर्नका लागि, छवि सम्पादन मोडमा जानुहोस्।

मेट्रो उपकरण चयन गर्नुहोस् र अवांछित क्षेत्र चयन गर्नुहोस्। यो मेटाइने छ र यसको ठाउँमा कागजको सेतो पत्र हुनेछ।

वैसे, म यस विकल्प को रूप मा अक्सर संभव छ को प्रयोग गर्न को सिफारिश। तपाईंले सबै पाठ क्षेत्रहरू चयन गर्नुभएको प्रयास गर्नुहोस्, जहाँ तपाइँ पाठको टुक्राको आवश्यकता छैन, वा कुनै अनावश्यक अंकहरू छन्, धमिलोपन, विरूपणहरू - मेट्रोसँग मेटाउनुहोस्। यो मान्यताको लागि धन्यवाद छिटो हुनेछ!

4. PDF / DJVU फाइलहरूको पहिचान

सामान्यतया, यो पहिचान ढाँचा अन्यबाट फरक हुनेछैन - उदाहरण ई। तपाईं यसको साथ तस्वीरहरु जस्तै जस्तै यसको साथ काम गर्न सक्नुहुन्छ। कार्यक्रम केवल पुरानो संस्करण हुनुपर्दैन, यदि तपाईंले PDF / DJVU फाईलहरू खोल्नुहुन्न भने - 11 मा संस्करण अद्यावधिक गर्नुहोस्।

सानो सल्लाह। FineReader मा कागजात खोल्न पछि - यो स्वचालित रूपमा कागजात पहिचान गर्न सुरु हुनेछ। प्राय: PDF / DJVU फाइलहरूमा, सम्पूर्ण कागजातमा पृष्ठको एक विशिष्ट क्षेत्र आवश्यक पर्दैन! सबै पृष्ठहरूमा यस्तो क्षेत्र हटाउन निम्न कार्य गर्नुहोस्:

1. छवि सम्पादन सेक्सनमा जानुहोस्।

2. "trimming" विकल्प सक्षम गर्नुहोस्।

3. तपाईंले सबै पृष्ठहरूमा आवश्यक क्षेत्र चयन गर्नुहोस्।

4. सबै पृष्ठहरूमा लागू क्लिक गर्नुहोस् र ट्रिम गर्नुहोस्।

5. त्रुटि जाँच र कार्य परिणाम बचत

यो देखिन्छ कि त्यहाँ अन्य समस्याहरू हुन सक्छ, जब सबै क्षेत्रहरू चयन गरियो, त्यसपछि मान्यता प्राप्त - यसलाई लिनुहोस् र बचत गर्नुहोस् ... यो त्यहाँ थिएन!

पहिलो, हामीले कागजात जाँच गर्न आवश्यक छ!

यसलाई सक्षम पार्न, दाँयामा सञ्झ्यालमा, "चेक" बटन हुनेछ, तल स्क्रिनशट हेर्नुहोस्। यसलाई क्लिक गरेपछि, FineReader कार्यक्रमले स्वचालित रूपमा तपाईंलाई यी क्षेत्रहरू देखाउनेछ जुन कार्यक्रमको त्रुटि छ र यो एक विश्वसनीय वा एक अन्य प्रतीक निर्धारण गर्न सकेन। तपाईं केवल छान्नु पर्छ, वा तपाईं कार्यक्रमको विचारसँग सहमत हुनुहुनेछ, वा तपाईंको क्यारेक्टर प्रविष्ट गर्नुहोस्।

वैसे, आधा अवस्थाहरुमा, लगभग, यो कार्यक्रमले तपाईंलाई तयार रेड-अप सही शब्द प्रदान गर्दछ - तपाईले माउसलाई प्रयोग गर्न चाहानु भएको छनौट गर्न को लागी मात्र प्रयोग गर्नु पर्छ।

दोस्रो, तपाईंलाई जाँच गरेपछि तपाईले ढाँचा चयन गर्न आवश्यक छ जसमा तपाईंले आफ्नो कामको नतीजा सुरक्षित गर्नुहुनेछ।

यहाँ FineReader ले तपाइँलाई पूर्ण रूपमा एक मोड दिन्छ: तपाइँले केवल शब्द एक-एकमा जानकारी हस्तान्तरण गर्न सक्नुहुनेछ, र तपाईं यसको दर्जन ढाँचा मध्ये एकमा सुरक्षित गर्न सक्नुहुनेछ। तर म अर्को महत्त्वपूर्ण पक्षलाई हाइलाइट गर्न चाहन्छु। जो पनि ढाँचा तपाईंले रोज्नुभयो, प्रतिलिपिको प्रकार छान्नुको लागि यो महत्त्वपूर्ण छ! सबैभन्दा रोचक विकल्पहरू विचार गर्नुहोस् ...

सटीक प्रतिलिपि

तपाईंले मान्यता प्राप्त कागजातमा पृष्ठमा चयन गर्नुभएको सबै क्षेत्रहरूलाई स्रोत कागजातमा मिलेको छ। एक धेरै सुविधाजनक विकल्प जब तपाईं महत्त्वपूर्ण छ पाठ ढाँचा हराउनु हुँदैन। वैसे, फन्टहरू पनि मूलसँग समान हुनेछ। म यस कागजातलाई शब्दमा स्थानान्तरण गर्न सिफारिस गर्दछु, त्यहाँ थप काम जारी राख्न।

सम्पादन योग्य प्रतिलिपि

यो विकल्प राम्रो छ किनभने तपाईले पाठको पहिले नै ढाँचा संस्करण प्राप्त गर्नुभयो। Ie "किलोमिटर" को इन्डेन्ट, जुन मूल कागजातमा हुन सक्दछ - तपाई भेट्न सक्नुहुन्न। उपयोगी विकल्प जब तपाइँ महत्त्वपूर्ण रूपमा जानकारी सम्पादन गर्नुहुनेछ।

ठीक छ, तपाईंले चयन गर्नु हुँदैन यदि तपाईं डिजाइन, फन्ट, इन्डेन्टको शैली सुरक्षित गर्न यो महत्त्वपूर्ण छ। कहिलेकाँही, यदि मान्यता अत्यन्त सफल छैन भने - तपाईंको कागजातले "ढाँचा" परिवर्तन गरिएको ढाँचाको कारण हुन सक्छ। यस अवस्थामा, एक सटीक प्रतिलिपि छनौट गर्न यो सल्लाह छ।

सादा पाठ

सबै चीज बिना पृष्ठ बाट मात्र पाठ चाहिनेहरूलाई एक विकल्प। कागजातहरू र तालिकाहरू बिना कागजातहरूको लागि उपयुक्त।

यसले कागजात स्क्यानिङ र पहिचान लेख समाप्ति गर्दछ। मलाई आशा छ कि यी सरल सुझावहरूको मद्दतले तपाईले आफ्ना समस्याहरू समाधान गर्न सक्नुहुनेछ ...

शुभकामना!