Visas tēmas

+
Home > Resursu > PDF > zināšanas par rakstzīmju optiskās atpazīšanas (Optical Character Recognition — OCR)

Zināšanas par rakstzīmju optiskās atpazīšanas (Optical Character Recognition — OCR)

Kas ir OCR?

Rakstzīmju optiskās pazīšanas, parasti saīsinātā OCR ir mehānisku vai elektronisku skenētus attēlus rokrakstā, mašīnrakstā vai drukātā teksta tulkojums mašīnu Kodēts teksts.

Kāpēc izmantot OCR?

OCR plaši izmanto dažādu veidu dokumentus, piemēram, ieskenētiem papīra dokumentiem, PDF failu vai attēlu digitālās kameras uzņemtais meklējams un rediģējams datu pārvēršanai. Dažas profesionālās vidēs (piemēram, bibliotēkas, biroji), tūkstošiem grāmatas un dokumenti tiek skenēti regulāri rezerves un arhīvs. Skenera tikai fotografē papīra dokumentu oriģinālus, kā rezultātā attēlu balstīta skenēto dokumentu PDF formātā. Liela problēma ar apstrādei un uzglabāšanai šāda liela apjoma skenētos dokumentos ir nespēja meklēt konkrētu frāzi vai vārdu iekšpusē failu. Arī bez teksta var uzsvēra, kopēt vai mainīt, jo dokuments satur vienu lielu attēlu failu, nevis atsevišķas teksta rakstzīmes.

OCR Sample

Pirms OCR veikšanas visu apgabalu lappusē ir atlasīts un izcelti un teksts var meklēt un rediģēt.

Pēc neveicot OCR tekstu lappusē var tikt atlasīta, veicot atlasot rīku, var meklēt un rediģēt rakstzīmi, vārdu un rindkopām viegli.

Kā Wondershare PDF OCR rīki palīdz jums?

Wondershare PDF OCR rīki var palīdzēt jums atpazīt tekstu no skenēta PDF, ātri un precīzi un saglabātu atpazīto rezultātu vairāku rediģējamā formātā.

Wondershare PDF Editor Pro for Mac: ar izcilu OCR precizitāte un formātu saglabāšanai, ļauj jums meklēt, labot un kopēt tekstu PDF skenētus vai attēlu balstīta tieši uz Mac. Tā arī ļauj jums skenētu PDF failu eksportēt uz formatētu tekstu balstīta Word, Excel, PowerPoint, EPUB, HTML un teksta formāti.

Wondershare PDF Converter Pro: atpazīt tekstu no skenēta PDF ar izcilu OCR precizitāte, un var pārvērst vairākus skenētus PDF failus uz Word, Excel, PowerPoint, EPUB, HTML un teksta dokumentu teksts pamatojas uz Windows.


Wondershare PDF Converter Pro for Mac: atpazīt tekstu no skenēta PDF ar izcilu OCR precizitāte, un var pārvērst vairākus skenētus PDF failus uz Word, Excel, PowerPoint, EPUB, HTML un teksta dokumentu tekstu balstītu uz Mac.

Kā uzlabot atpazīšanas OCR kvalitāti?

Atpazīšanas OCR kvalitāte lielā mērā ir atkarīga no attēla, kas lielā mērā ir atkarīgs no iestatījumiem, kas izmantoti laikā dokumentu skenēšanas procesu kvalitāti. Lai iegūtu labāku atpazīšanas OCR kvalitāti par skenēto dokumentu, šeit ir daži padomi dokumentu skenēšanai:

Fonts ir pārāk mazs
Lai tiktu iegūts optimāls atpazīšanas rezultātus, skenēt dokumentus, iespiesti ļoti mazi fonti, izmantojot augstāku izšķirtspēju.
Izšķirtspēja ScanSourceSettings objekta rekvizīts var norādīt vēlamo izšķirtspēju.


Avota attēlu Ieteicamā izšķirtspēja
Reader 300 dpi, tipisks tekstiem (iespiests lieluma fontus 10 pt vai lielāka)
Reader 400-600 dpi tekstus iespiesti mazāku fontu (9pt vai mazākus)

Spilgtuma noregulēšana
Iespējams, vajadzēs pielāgot spilgtuma iestatījumu, skenējot melnbaltajā režīmā. Spilgtums ScanSourceSettings objekta rekvizīts var norādīt vajadzīgo spilgtumu. Vidējā vērtība ir aptuveni 50 % vajadzētu pietikt, vairumā gadījumu.
Ja iegūtajā attēlā ir pārāk daudz "saplēstā" vai "iestrēdzis" kopā burtus, problēmu novēršana, izmantojot tabulā zemāk.

Jūsu attēls izskatās šādi Ieteikumi
Good Quality Šis attēls ir piemērots atzīšana
Very Light
rakstzīmes "caurumainu" vai ļoti gaiša
  • Samaziniet spilgtumu, lai attēls kļūtu tumšāks.
  • Skenēt pelēktoņu režīmā. Automātiski tiks noregulē spilgtumu.
  • Very Dark
    rakstzīmes ir ļoti izkropļota, iestrēdzis kopā vai aizpildīt
  • Palielinātu spilgtumu, lai attēls kļūtu gaišāka
  • Skenēt pelēktoņu režīmā. Automātiski tiks noregulē spilgtumu.
  • Drukas kvalitāte
    Sliktas kvalitātes dokumentus ar "troksnis" (t.i., izlases melnie punktiņi vai speckles), neskaidra un nevienmērīga burtus vai slīpu līniju un pārvietotajām tabulas apmales var pieprasīt īpašu skenēšanas iestatījumus. Piemēram, šo faksu un laikraksta:

    Print Quality

    Sliktas kvalitātes dokumentus vislabāk ir skenēt pelēktoņu režīmā. Skenējot pelēktoņos, programma automātiski izvēlētos optimālo spilgtuma vērtība.
    Pelēktoņu režīms saglabā vairāk informācijas par vēstulēm skenēto tekstu, lai sasniegt labāku rezultātu atzīšanu, kad atzīstot vidēja un nekvalitatīvi dokumenti.


    Saistītie raksti

    Ražojumu saistītie jautājumi? Runāt tieši ar mūsu atbalsta komandas >>

    Augšpusē