Is féidir an t-ardú ar úsáid optúil aitheantais carachtar a chur i leith go príomha leis an méadú ar tháirgeadh na gcóras aitheantais uathoibríoch. Mar thoradh air sin, tá luach margaidh domhanda na teicneolaíochta OCR, pegged ag $ 8.93 billiún in 2021, meastar go bhfásfaidh sé ag CAGR de 15.4% idir 2022 agus 2030.
Ach cad é go díreach teicneolaíocht OCR? Agus cén fáth gur athróir cluiche é do ghnólachtaí atá ag forbairt samhlacha AI éifeachtacha? A ligean ar a fháil amach.
Cad é OCR (Aithint Optúil Carachtair)?
Teicneolaíocht is ea OCR a thiontaíonn cineálacha éagsúla doiciméad, amhail doiciméid pháipéir scanta, PDFs, nó íomhánna téacs, go sonraí inathraithe agus inchuardaithe. Oibríonn sé ag:
- Anailís a dhéanamh ar struchtúr an téacs in íomhá
- An téacs a bhriseadh síos ina línte agus ina charachtair
- Na carachtair amhairc seo a thiontú go téacs meaisín-inléite
Áirítear le húsáidí coitianta:
- Doiciméid scanta a thiontú ina gcomhaid téacs ineagarthóireachta
- Leabhair chlóite a dhigitiú
- Téacs a bhaint as grianghraif
- Oidis lámhscríofa a thiontú go téacs digiteach
- Aitheantas pláta ceadúnais
Buntáistí agus Dúshláin Thacair Sonraí Foinse Oscailte
Ní mór do ghnólachtaí na buntáistí agus na dúshláin a chur i gcoinne a chéile chun a thuiscint an gcaithfidh siad sonraí saor-le-úsáide a roghnú dá bhfeidhmchláir ML.
Sochair
- Tá rochtain éasca ar na sonraí. Mar gheall ar infhaighteacht sonraí, laghdaítear an costas a bhaineann leis an bhfeidhmchlár a fhorbairt go suntasach.
- Laghdaítear an t-am agus an iarracht a chaitear ag bailiú sonraí don fheidhmchlár mar go bhfuil an tacar sonraí ar fáil go héasca.
- Tá raidhse fóraim phobail nó grúpaí cabhrach ann a chabhraíonn leis an tacar sonraí a fhoghlaim, a oiriúnú agus a bharrfheabhsú.
- Ceann de na buntáistí móra a bhaineann leis an tacar sonraí foinse oscailte ná nach leagann sé aon srianta ar shaincheapadh.
- Tá rochtain ag cuid mhór den daonra ar shonraí Foinse Oscailte, rud a fhágann gur féidir anailís agus nuálaíocht a dhéanamh gan bacainní airgeadaíochta.
Dúshláin
- Is deacair na sonraí a bhaineann go sonrach leis an tionscadal a fháil. Ina theannta sin, d’fhéadfadh faisnéis a bheith in easnamh agus úsáid mhícheart a bhaint as na sonraí atá ar fáil.
- Tógann sé am, iarracht agus bíonn sé costasach sonraí dílsithe a fháil
- Cé go bhféadfadh sé a bheith níos éasca sonraí a fháil, d’fhéadfadh costas eolais agus anailíse a bheith níos airde ná an buntáiste tosaigh.
- Úsáideann forbróirí eile na sonraí céanna freisin chun feidhmchláir a fhorbairt.
- Tá na tacair shonraí seo an-leochaileach i leith sáruithe slándála, príobháideachta agus toilithe.
22 Thacair Sonraí Lámhscríbhneoireachta & OCR is Fearr don Fhoghlaim Meaisín

Tá go leor tacar sonraí foinse oscailte ar fáil chun feidhmchláir aitheantais téacs a fhorbairt. Tá cuid de na 22 is fearr
Bunachar Sonraí NIST
Cuireann an NIST nó an Institiúid Náisiúnta Eolaíochta bailiúchán saor in aisce ar fáil de bhreis is 3600 sampla peannaireachta le níos mó ná 810,000 íomhá carachtar
Bunachar Sonraí MNIST
Díorthaithe ó Bhunachar Sonraí Speisialta 1 agus 3 de chuid NSIT, is bailiúchán tiomsaithe é bunachar sonraí MNIST de 60,000 uimhir lámhscríofa don tacar oiliúna agus 10,000 sampla don tacar tástála. Cuidíonn an bunachar foinse oscailte seo le samhlacha a thraenáil chun patrúin a aithint agus níos lú ama á chaitheamh ag réamhphróiseáil.
Brath Téacs
Bunachar sonraí foinse oscailte, tá thart ar 500 íomhá laistigh agus lasmuigh de chláir chomharthaí, plátaí dorais, plátaí foláirimh agus go leor eile sa tacar sonraí Braite Téacs.
OCR Stanford
Arna fhoilsiú ag Stanford, is bailiúchán focal lámhscríofa é an tacar sonraí saor-le-úsáid seo ag an MIT Spoken Language Systems Group.
Téacs Amharc Sráide
Bailithe ó íomhánna Google Street View, tá íomhánna braite téacs de chláir agus de chomharthaí sráide den chuid is mó sa tacar sonraí seo.
Bunachar Sonraí Doiciméad
Is éard atá sa Bhunachar Sonraí Doiciméad ná bailiúchán de 941 doiciméad lámhscríofa, lena n-áirítear táblaí, foirmlí, líníochtaí, léaráidí, liostaí, agus níos mó, ó 189 scríbhneoir.
Nathanna Matamaitice
Is bunachar sonraí é Na Sloinn Matamaitice ina bhfuil 101 siombail matamaitice agus 10,000 slonn.
Uimhreacha Tithe Street View
A bhuaintear ó Google Street View, is bunachar sonraí é an Street View House Numbers seo ina bhfuil 73257 digit uimhreacha tí sráide.
Timpeallacht Nádúrtha OCR
Is tacar sonraí é OCR an Chomhshaoil Nádúrtha ina bhfuil beagnach 660 íomhá ar fud an domhain agus 5238 nóta téacs.
Nathanna Matamaitice
Níos mó ná 10,000 slonn le 101+ siombail matamaitice.
Carachtair Sínis lámhscríofa
Tacar sonraí de 909,818 íomhá carachtair Sínise lámhscríofa, comhionann le thart ar 10 n-alt nuachta.
Téacs Clóite Araibis
Foclóir de 113,284 focal ag baint úsáide as 10 gcló Araibis.
Téacs lámhscríofa Béarla
Téacs lámhscríofa Béarla ar chlár bán le breis agus 1700 iontráil.
3000 timpeallachtaí íomhánna
3000 íomhá ó thimpeallachtaí éagsúla, lena n-áirítear radhairc lasmuigh agus laistigh faoi soilsiú éagsúla.
Sonraí Chars74K
74,000 íomhá de dhigit Béarla agus Cannadais.
IAM (Lámhscríbhneoireacht IAM)
Tá 13,353 íomhá téacs lámhscríofa ag 657 scríbhneoir ó Lancaster-Oslo/Bergen Corpus Béarla na Breataine i mbunachar sonraí IAM.
FUNSD (Tuiscint Foirme i nDoiciméid Scanta Torainn)
Cuimsíonn FUNSD 199 foirm scanta anótáilte le cuma éagsúil agus torannach, dúshlánach do thuiscint foirmeacha.
Téacs OCR
Déanann TextOCR tagarmharcáil ar aitheantas téacs ar radharc-téacs múnlaithe treallach in íomhánna nádúrtha.
Twitter 100k
Is tacar sonraí mór é Twitter100k le haghaidh aisghabhála trasmheáin faoi mhaoirseacht lag.
SSIG-SegPlate – Deighilt Carachtair Pláta Ceadúnais (LPCS)
Déanann an tacar sonraí seo measúnú ar Dheighilt Carachtair Pláta Ceadúnais (LPCS) le 101 íomhá feithicle i rith an lae.
105,941 Íomhánna Radhairc Nádúrtha Sonraí OCR de 12 Teanga
Áirítear leis na sonraí 12 theanga (6 Áiseach, 6 Eorpacha) agus radhairc agus uillinneacha nádúrtha éagsúla. Tá boscaí teorann líne-leibhéal agus tras-scríbhinní téacs ann. Tá sé úsáideach le haghaidh tascanna OCR iltheangacha.
Tacar Sonraí Íomhá Clár Comharthaí Indiach
Tá íomhánna de chomharthaí tráchta Indiacha sa tacar sonraí le haicmiú agus le brath, a thógtar i ndálaí aimsire éagsúla i rith an lae, tráthnóna agus oíche.
Ba iad seo cuid de na tacair shonraí foinse oscailte is fearr chun samhlacha ML a thraenáil d’fheidhmchláir braite téacs. D'fhéadfadh go dtógfadh sé am agus iarracht an ceann a ailíníonn le do riachtanais ghnó agus feidhmchláir a roghnú. Ní mór duit triail a bhaint as na tacair sonraí seo, áfach, sula gcinnfidh tú an ceann cuí.
[Léigh freisin: Infographic OCR - Sainmhíniú, Buntáistí, Dúshláin, agus Cásanna Úsáide]
Chun cabhrú leat dul ar aghaidh i dtreo feidhmchlár braite téacs iontaofa agus éifeachtach tá Shaip – an soláthróir réitigh teicneolaíochta ardchéime. Déanaimid ár n-eispéireas teicneolaíochta a ghiaráil chun tacair sonraí oiliúna OCR inoiriúnaithe, optamaithe agus éifeachtach a chruthú do thionscadail éagsúla cliant. Chun ár gcumas a thuiscint go hiomlán, téigh i dteagmháil linn inniu.