Tacair Sonraí Lámhscríbhneoireachta

Na 15 Thacar Sonraí Lámhscríbhneoireachta Foinse Oscailte is Fearr chun do mhúnlaí ML a Thraenáil

Tá saol an ghnó ag athrú ar luas iontach, ach níl an claochlú digiteach seo beagnach chomh leathan agus ba mhaith linn é a bheith. Tá daoine fós ag láimhseáil doiciméad fisiceach ina n-oibríochtaí ó lá go lá, ó chorparáidí móra go gnólachtaí ar scála beag. Cé go bhfuil laghdú suntasach tagtha ar mhinicíocht na húsáide, níor baineadh go hiomlán as. In ionad an phróisis am-íditheach de scanadh doiciméad le haghaidh úsáid dhigiteach, ag baint úsáide as a dhéanaí OCR atá tíosach ar am agus éifeachtach.

Is féidir an t-ardú ar úsáid optúil aitheantais carachtar a chur i leith go príomha leis an méadú ar tháirgeadh na gcóras aitheantais uathoibríoch. Mar thoradh air sin, tá luach margaidh domhanda na teicneolaíochta OCR, pegged ag $ 8.93 billiún in 2021, meastar go bhfásfaidh sé ag CAGR de 15.4% idir 2022 agus 2030.

Ach cad é go díreach teicneolaíocht OCR? Agus cén fáth gur athróir cluiche é do ghnólachtaí atá ag forbairt samhlacha AI éifeachtacha? A ligean ar a fháil amach.

Cad é OCR?

Nó dá dtagraítear mar aitheantas téacs, OCR nó Aitheantas Optúil Carachtair is clár é a bhaintear sonraí clóite nó scríofa as doiciméid scanta, PDFanna íomhánna amháin, agus nótaí lámhscríofa i bhformáid atá inléite ag meaisín. Tógann na bogearraí gach litir ón íomhá agus comhcheanglaítear iad i bhfocail agus in abairtí, rud a fhágann go bhfuil sé éasca na doiciméid a rochtain agus a chur in eagar go digiteach.

Cad is tacair shonraí foinse oscailte ann?

Tá roinnt áiteanna ann ina bhfuil acmhainneacht mhór le giaráil ag teicneolaíocht OCR. I measc roinnt áiteanna tá an t-aerfort, foilsiú ríomhleabhar, fógraí, bainc, agus córais slabhra soláthair. Mar sin féin, le go bhfreastalóidh na hiarratais ar a gcuspóir, ní mór iad a bheith oilte ar thionscadail ar leith tacair shonraí Aitheantais Optúil Carachtair.

Braitheann éifeachtúlacht an fheidhmchláir go mór ar cháilíocht an tacair sonraí agus ar an modheolaíocht oiliúna atá i gceist. Mar sin féin, digiteach cáilíochta a aimsiú agus tacair shonraí lámhscríbhneoireachta deacair don iarratas. Mar sin, úsáideann go leor cuideachtaí bunachair shonraí foinse oscailte nó saor-le-úsáid in ionad na cinn dílseánaigh.

Buntáistí agus Dúshláin Thacair Sonraí Foinse Oscailte

Ní mór do ghnólachtaí na buntáistí agus na dúshláin a chur i gcoinne a chéile chun a thuiscint an gcaithfidh siad sonraí saor-le-úsáide a roghnú dá bhfeidhmchláir ML.

Sochair

  • Tá rochtain éasca ar na sonraí. Mar gheall ar infhaighteacht sonraí, laghdaítear an costas a bhaineann leis an bhfeidhmchlár a fhorbairt go suntasach.
  • Laghdaítear an t-am agus an iarracht a chaitear ag bailiú sonraí don fheidhmchlár mar go bhfuil an tacar sonraí ar fáil go héasca.
  • Tá raidhse fóraim phobail nó grúpaí cabhrach ann a chabhraíonn leis an tacar sonraí a fhoghlaim, a oiriúnú agus a bharrfheabhsú.
  • Ceann de na buntáistí móra a bhaineann leis an tacar sonraí foinse oscailte ná nach leagann sé aon srianta ar shaincheapadh.
  •   Tá rochtain ag cuid mhór den daonra ar shonraí Foinse Oscailte, rud a fhágann gur féidir anailís agus nuálaíocht a dhéanamh gan bacainní airgeadaíochta.

Dúshláin

  • Is deacair na sonraí a bhaineann go sonrach leis an tionscadal a fháil. Ina theannta sin, d’fhéadfadh faisnéis a bheith in easnamh agus úsáid mhícheart a bhaint as na sonraí atá ar fáil.
  • Tógann sé am, iarracht agus bíonn sé costasach sonraí dílsithe a fháil
  • Cé go bhféadfadh sé a bheith níos éasca sonraí a fháil, d’fhéadfadh costas eolais agus anailíse a bheith níos airde ná an buntáiste tosaigh.
  • Úsáideann forbróirí eile na sonraí céanna freisin chun feidhmchláir a fhorbairt.
  • Tá na tacair shonraí seo an-leochaileach i leith sáruithe slándála, príobháideachta agus toilithe.

15 Thacair Sonraí Lámhscríbhneoireachta & OCR is Fearr don Fhoghlaim Meaisín

Bunachar sonraí ocr foinse oscailte

Tá go leor tacar sonraí foinse oscailte ar fáil chun feidhmchláir aitheantais téacs a fhorbairt. Tá cuid de na 15 is fearr

  1. Tacar Sonraí ICDAR

    Tá stór 229 íomhá oiliúna agus 233 íomhá tástála, mar aon le nótaí, ag an gComhdháil Idirnáisiúnta um Anailís agus Aithint Doiciméad. Feidhmíonn sé mar thagarmharc le haghaidh meastóireachta ar bhrath téacs.

  2. IIIT 5K-Tacar Sonraí Word

    Tógtha ó chuardach íomhá Google, is bailiúchán focal é IIIT 5K-word ó chláir chomharthaí, cláir fhógraí, uimhirphlátaí agus póstaeir. Tá íomhánna focal gearrtha 5K ann, rud a fhágann go bhfuil sé ar cheann de na bailiúcháin is fairsinge de thacair sonraí aitheantais téacs atá ar fáil.

  3. Bunachar Sonraí NIST

    Cuireann an NIST nó an Institiúid Náisiúnta Eolaíochta bailiúchán saor in aisce ar fáil de bhreis is 3600 sampla peannaireachta le níos mó ná 810,000 íomhá carachtar

  4. Bunachar Sonraí MNIST

    Díorthaithe ó Bhunachar Sonraí Speisialta 1 agus 3 de chuid NSIT, is bailiúchán tiomsaithe é bunachar sonraí MNIST de 60,000 uimhir lámhscríofa don tacar oiliúna agus 10,000 sampla don tacar tástála. Cuidíonn an bunachar foinse oscailte seo le samhlacha a thraenáil chun patrúin a aithint agus níos lú ama á chaitheamh ag réamhphróiseáil.

  5. Brath Téacs

    Bunachar sonraí foinse oscailte, tá thart ar 500 íomhá laistigh agus lasmuigh de chláir chomharthaí, plátaí dorais, plátaí foláirimh agus go leor eile sa tacar sonraí Braite Téacs.

  6. OCR Stanford

    Arna fhoilsiú ag Stanford, is bailiúchán focal lámhscríofa é an tacar sonraí saor-le-úsáid seo ag an MIT Spoken Language Systems Group.

  7. DDI-100

    Seachas an Tacar Sonraí um Íomhánna Doiciméad Saobhtha a thugtar air, is éard atá sa DDI-100 ná bailiúchán de bhreis is 6658 leathanach de dhoiciméid a bhfuil roinnt patrún geoiméadrach agus saobhadh curtha i bhfeidhm orthu. Ina theannta sin, tá níos mó ná 100 íomhá, maisc stampa, maisc téacs, agus boscaí teorann ag an DDI-99870.

  8. Téacs Bóthair-1K

    Ar cheann de na tacair sonraí is mó a chuidíonn le samhlacha a thraenáil chun téacs a bhrath i bhfíseáin, tá 1 gearrthóg físe ar an RoadText-1000K mar aon le nótáil téacs bhosca teorann agus tras-scríobh an téacs i ngach fráma físeáin.

  9. MSRA-TD500

    Tá 300 oiliúint agus 200 íomhá téacs ann; tá carachtair as Sínis agus as Béarla san MSRA-TD500 agus tá sé anótáilte ag leibhéal na habairte.

  10. Tacar Sonraí MJSynth

    Ar fáil ag Ollscoil Oxford, tá beagnach 9 milliún íomhá a ghintear go sintéiseach sa tacar focal seo a chlúdaíonn níos mó ná 90 míle focal Béarla.

  11. Téacs Amharc Sráide

    Bailithe ó íomhánna Google Street View, tá íomhánna braite téacs de chláir agus de chomharthaí sráide den chuid is mó sa tacar sonraí seo.

  12. Bunachar Sonraí Doiciméad

    Is éard atá sa Bhunachar Sonraí Doiciméad ná bailiúchán de 941 doiciméad lámhscríofa, lena n-áirítear táblaí, foirmlí, líníochtaí, léaráidí, liostaí, agus níos mó, ó 189 scríbhneoir.

  13. Nathanna Matamaitice

    Is bunachar sonraí é Na Sloinn Matamaitice ina bhfuil 101 siombail matamaitice agus 10,000 slonn.

  14. Uimhreacha Tithe Street View

    A bhuaintear ó Google Street View, is bunachar sonraí é an Street View House Numbers seo ina bhfuil 73257 digit uimhreacha tí sráide.

  15. Timpeallacht Nádúrtha OCR

    Is tacar sonraí é OCR an Chomhshaoil ​​Nádúrtha ina bhfuil beagnach 660 íomhá ar fud an domhain agus 5238 nóta téacs.

Ba iad seo cuid de na tacair shonraí foinse oscailte is fearr chun samhlacha ML a thraenáil d’fheidhmchláir braite téacs. D'fhéadfadh go dtógfadh sé am agus iarracht an ceann a ailíníonn le do riachtanais ghnó agus feidhmchláir a roghnú. Ní mór duit triail a bhaint as na tacair sonraí seo, áfach, sula gcinnfidh tú an ceann cuí.

Chun cabhrú leat dul ar aghaidh i dtreo feidhmchlár braite téacs iontaofa agus éifeachtach tá Shaip – ​​an soláthróir réitigh teicneolaíochta ardchéime. Déanaimid ár n-eispéireas teicneolaíochta a ghiaráil chun saincheaptha, optamaithe, agus tacair sonraí oiliúna éifeachtacha OCR do thionscadail éagsúla cliant. Chun ár gcumas a thuiscint go hiomlán, téigh i dteagmháil linn inniu.

Comhroinn Shóisialta