Tionscadal Vaani

Tionscadal Vaani: Ról Shaip i Múnlú na hintleachta saorga ilteangacha don India

I dtír atá chomh héagsúil ó thaobh cultúir agus teanga chomh saibhir leis an India, cuirtear tús le tógáil AI cuimsitheach le tacair shonraí ionadaíocha ardchaighdeáin a bhailiú. Sin an fhís atá taobh thiar de Tionscadal Vaani—tionscnamh foinse oscailte ar scála mór arna stiúradh ag EALAÍN, ISc Bengaluru, agus google, dírithe ar ghuth a thabhairt do gach teanga agus canúint Indiach.

An sprioc uaillmhianach? A bhailiú 150,000+ uair an chloig cainte agus 15,000+ uair an chloig de thrascríobh ó 1 milliún duine ar fud na 773 cheantar na hIndia.

Mar cheann de na príomhdhíoltóirí don mhisean náisiúnta seo, Cruth Bhí ról lárnach ag coimeád sonraí cainte spontáineacha, tras-scríobh, agus bailiú meiteashonraí - ag leagan an bhunsraith do theicneolaíochtaí gutha cothroma a léiríonn fíor-India.

An Fhís Taobh thiar Tionscadal Vaani

Tá Tionscadal Vaani deartha chun an bhearna cuimsithe AI ​​a líonadh trí na an tacar sonraí ilmhódúil, ilteangach, foinse oscailte is mó san India. Tá na sonraí seo mar bhunús le córais chruinne aitheantais cainte, aistriúcháin, agus ghiniúna AI a fhorbairt i dteangacha dúchasacha Indiacha - go leor acu atá tearc-ionadaithe in éiceachórais teicneolaíochta domhanda.

Is í an fhís fhadtéarmach feidhmchláir a bhfuil tionchar acu a chumhachtú i:

Conas a chuidigh Shaip leis an Tacar Sonraí Urlabhra Foinse Oscailte is Mó san India a Thógáil do Thionscadal Vaani

Cuireadh de chúram ar Shaip cnuasach na 8,000 uair an chloig de chaint spontáineach agus 800 uair an chloig de thrascríbhinní arna bhfíorú de láimh. Chuimsigh ár bhfreagracht ar bord cainteoir, gabháil fuaime, clibeáil meiteashonraí, comhordú trascríobh, agus rialú cáilíochta.

uaireanta 8,000 de shonraí fuaime spontáineacha

uaireanta 800 tras-scríbhinní láimhe ardchaighdeáin

Taifeadtaí ó 400+ cainteoir dúchais in aghaidh an cheantair, a dhéanann ionadaíocht ar aoisghrúpaí, inscne agus canúintí éagsúla

80 ceantar, clúdaithe

Leideanna bunaithe ar íomhá lena chinntiú nádúrtha, cainte comhthéacsúil

Seo an rud a rinne ár gcur chuige uathúil:

Éagsúlacht Leibhéal Dúiche

Éagsúlacht Leibhéal Dúiche

Fuaireamar taifeadtaí ó 80 ceantar scaipthe ar fud stáit mar Bihar, Uttar Pradesh, Karnataka, West Europe, agus Maharashtra. Chuir gach ceantar 100 uair an chloig de shonraí fuaime ar fáil, ag cinntiú cothromaíocht réigiúnach. D’fhostaigheamar cainteoirí dúchais, ag cinntiú ionadaíocht na gcanúintí réigiúnacha agus na gcanúintí a dtugtar neamhaird orthu go minic i dtacar sonraí príomhshrutha AI.

Léiriú Teangeolaíoch & Déimeagrafach

Léiriú Teangeolaíoch & Déimeagrafach

Fuaireamar taifeadtaí ó 80 ceantar scaipthe ar fud stáit mar Bihar, Uttar Pradesh, Karnataka, West Europe, agus Maharashtra. Chuir gach ceantar 100 uair an chloig de shonraí fuaime ar fáil, ag cinntiú cothromaíocht réigiúnach. D’fhostaigheamar cainteoirí dúchais, ag cinntiú ionadaíocht na gcanúintí réigiúnacha agus na gcanúintí a dtugtar neamhaird orthu go minic i dtacar sonraí príomhshrutha AI.

Óráid Íomhá-spreagtha

Chun stór focal nádúrtha spontáineach a spreagadh, taispeánadh 45–90 íomhá do na rannpháirtithe in aghaidh an tseisiúin agus iarradh orthu cur síos a dhéanamh orthu. Spreagadh rannpháirtithe chun úsáid a bhaint as íomhánna ilghnéitheacha - ó shiombail chultúrtha go réada laethúla - chun freagraí nádúrtha, spontáineacha a fháil ina dteanga dhúchais. Chinntigh sé seo gur léirigh taifeadtaí óráid fhíorshaolach, chomhthéacsúil – atá riachtanach chun ardchórais NLP a oiliúint.

Caighdeáin Ardchaighdeáin Trascríobh

Caighdeáin Ardchaighdeáin Trascríobh

Ní dhearnadh ach 10% de na sonraí cainte a thrascríobh – 800 uair an chloig san iomlán. Rinne teangeolaithe áitiúla na tras-scríbhinní laistigh de gha 20–50 km ón gcainteoir, rud a chinntigh cur amach ar chanúintí agus nuances. Chinntigh seiceáil dara sraithe ráta earráide <5% focal (WER).

Dearbhú Cáilíochta docht

Bhí ar shonraí fuaime barra ard a chomhlíonadh: gan aon torann cúlra, macallaí, creathadh gutháin, ná saobhadh. Taifeadadh an fhuaim i dtimpeallachtaí ciúine gan macalla. Rinneadh athbhreithniú dian ar chomhaid chun treoirlínte maidir le soiléireacht cainte, leibhéil torainn, cruinneas meiteashonraí, agus fíorú cainteoir a chomhlíonadh. Bhí ar chlibeáil meiteashonraí a bheith cruinn ar fud na gcomhad go léir, agus seiceáladh gach taifead le haghaidh ailíniú an chainteora agus an tsuímh.

Dúshláin a Réitíomar

Tharla ár rathúlacht mar gheall ar phleanáil mhionchúiseach, bailíochtú faoi stiúir na teicneolaíochta, agus comhpháirtíochtaí le foirne áitiúla a thuig nuances cultúrtha gach réigiúin.

Tionchar agus Feidhmchláir

Ní hamháin gur chuir ranníocaíocht Shaip dlús le dul chun cinn Project Vaani ach leag sé an bonn le haghaidh AI cuimsitheach san India freisin. Tá an tacar sonraí cainte coimeádta á úsáid cheana féin chun samhlacha AI a chruthú agus a mhionchoigeartú le haghaidh:

  • Cúntóirí gutha dúchasacha
  • Innill aistriúcháin réigiúnacha
  • Uirlisí cumarsáide inrochtana do dhaoine lagamhairc
  • Ardáin edtech faoi stiúir AI do mhic léinn tuaithe
  • Teileleighis tuaithe
  • Seirbhísí do shaoránaigh atá bunaithe ar ghuthú
  • Aistriúchán agus trascríobh fíor-ama

Conclúid

Is céim dhána é Project Vaani i dtreo AI cuimsitheach, inrochtana - agus is mór an onóir do Shaip ról bunúsach a bheith aige. Athdhearbhaíonn obair Shaip ar Thionscadal Vaani ár dtiomantas do chórais AI eiticiúla uilechuimsitheacha a thógáil atá fréamhaithe san éagsúlacht agus san ionadaíocht. Agus breis agus 8,000 uair an chloig cainte bailithe agus 800 uair an chloig tras-scríofa, táimid bródúil as a bheith páirteach i gceann de na tionscadail chuimsithe dhigitigh is físiúla san India.

Agus Project Vaani ag leanúint ar aghaidh i dtreo a sprioc níos mó de 150,000+ uair an chloig de shonraí, táimid réidh chun tacú leis an gcéad teorainn eile de nuálaíocht AI a labhraíonn - agus ar son - gach Indiach.

Ar mhaith leat dul i gcomhpháirtíocht linn chun AI a thógáil a thuigeann an saol fíor? www.shaip.com

Comhroinn Shóisialta

Cruth
Forbhreathnú Príobháideachta

Úsáideann an láithreán gréasáin seo fianáin ionas gur féidir linn an taithí is fearr úsáideora a sholáthar duit. Stóráiltear faisnéis ar bhrabhsálaí i do bhrabhsálaí agus déanann sé feidhmeanna ar nós a aithint duit nuair a thagann tú ar ais chuig ár láithreán gréasáin agus cabhrú lenár bhfoireann a thuiscint cé na codanna den láithreán gréasáin is fearr leat agus is úsáideach leat.