I dtír atá chomh héagsúil ó thaobh cultúir agus teanga chomh saibhir leis an India, cuirtear tús le tógáil AI cuimsitheach le tacair shonraí ionadaíocha ardchaighdeáin a bhailiú. Sin an fhís atá taobh thiar de Tionscadal Vaani—tionscnamh foinse oscailte ar scála mór arna stiúradh ag EALAÍN, ISc Bengaluru, agus google, dírithe ar ghuth a thabhairt do gach teanga agus canúint Indiach.
An sprioc uaillmhianach? A bhailiú 150,000+ uair an chloig cainte agus 15,000+ uair an chloig de thrascríobh ó 1 milliún duine ar fud na 773 cheantar na hIndia.
Mar cheann de na príomhdhíoltóirí don mhisean náisiúnta seo, Cruth Bhí ról lárnach ag coimeád sonraí cainte spontáineacha, tras-scríobh, agus bailiú meiteashonraí - ag leagan an bhunsraith do theicneolaíochtaí gutha cothroma a léiríonn fíor-India.
An Fhís Taobh thiar Tionscadal Vaani
Tá Tionscadal Vaani deartha chun an bhearna cuimsithe AI a líonadh trí na an tacar sonraí ilmhódúil, ilteangach, foinse oscailte is mó san India. Tá na sonraí seo mar bhunús le córais chruinne aitheantais cainte, aistriúcháin, agus ghiniúna AI a fhorbairt i dteangacha dúchasacha Indiacha - go leor acu atá tearc-ionadaithe in éiceachórais teicneolaíochta domhanda.
Is í an fhís fhadtéarmach feidhmchláir a bhfuil tionchar acu a chumhachtú i:
- Cúram Sláinte – Teileleighis ghuth-bhunaithe
- oideachas – Ardáin foghlama dhúchasacha
- Rialachas – Comhéadain chomhrá le haghaidh seirbhísí do shaoránaigh
- Inrochtaineacht – Uirlisí gutha le haghaidh úsáideoirí a bhfuil cumas éagsúil acu
- Freagairt ar thubaiste – Cumarsáid fíor-ama i gcanúintí áitiúla
Conas a chuidigh Shaip leis an Tacar Sonraí Urlabhra Foinse Oscailte is Mó san India a Thógáil do Thionscadal Vaani
Cuireadh de chúram ar Shaip cnuasach na 8,000 uair an chloig de chaint spontáineach agus 800 uair an chloig de thrascríbhinní arna bhfíorú de láimh. Chuimsigh ár bhfreagracht ar bord cainteoir, gabháil fuaime, clibeáil meiteashonraí, comhordú trascríobh, agus rialú cáilíochta.
uaireanta 8,000 de shonraí fuaime spontáineacha
Taifeadtaí ó 400+ cainteoir dúchais in aghaidh an cheantair, a dhéanann ionadaíocht ar aoisghrúpaí, inscne agus canúintí éagsúla
80 ceantar, clúdaithe
Leideanna bunaithe ar íomhá lena chinntiú nádúrtha, cainte comhthéacsúil
Seo an rud a rinne ár gcur chuige uathúil:
Éagsúlacht Leibhéal Dúiche
Fuaireamar taifeadtaí ó 80 ceantar scaipthe ar fud stáit mar Bihar, Uttar Pradesh, Karnataka, West Europe, agus Maharashtra. Chuir gach ceantar 100 uair an chloig de shonraí fuaime ar fáil, ag cinntiú cothromaíocht réigiúnach. D’fhostaigheamar cainteoirí dúchais, ag cinntiú ionadaíocht na gcanúintí réigiúnacha agus na gcanúintí a dtugtar neamhaird orthu go minic i dtacar sonraí príomhshrutha AI.
Léiriú Teangeolaíoch & Déimeagrafach
Fuaireamar taifeadtaí ó 80 ceantar scaipthe ar fud stáit mar Bihar, Uttar Pradesh, Karnataka, West Europe, agus Maharashtra. Chuir gach ceantar 100 uair an chloig de shonraí fuaime ar fáil, ag cinntiú cothromaíocht réigiúnach. D’fhostaigheamar cainteoirí dúchais, ag cinntiú ionadaíocht na gcanúintí réigiúnacha agus na gcanúintí a dtugtar neamhaird orthu go minic i dtacar sonraí príomhshrutha AI.
Óráid Íomhá-spreagtha
Chun stór focal nádúrtha spontáineach a spreagadh, taispeánadh 45–90 íomhá do na rannpháirtithe in aghaidh an tseisiúin agus iarradh orthu cur síos a dhéanamh orthu. Spreagadh rannpháirtithe chun úsáid a bhaint as íomhánna ilghnéitheacha - ó shiombail chultúrtha go réada laethúla - chun freagraí nádúrtha, spontáineacha a fháil ina dteanga dhúchais. Chinntigh sé seo gur léirigh taifeadtaí óráid fhíorshaolach, chomhthéacsúil – atá riachtanach chun ardchórais NLP a oiliúint.
Caighdeáin Ardchaighdeáin Trascríobh
Ní dhearnadh ach 10% de na sonraí cainte a thrascríobh – 800 uair an chloig san iomlán. Rinne teangeolaithe áitiúla na tras-scríbhinní laistigh de gha 20–50 km ón gcainteoir, rud a chinntigh cur amach ar chanúintí agus nuances. Chinntigh seiceáil dara sraithe ráta earráide <5% focal (WER).
Dearbhú Cáilíochta docht
Bhí ar shonraí fuaime barra ard a chomhlíonadh: gan aon torann cúlra, macallaí, creathadh gutháin, ná saobhadh. Taifeadadh an fhuaim i dtimpeallachtaí ciúine gan macalla. Rinneadh athbhreithniú dian ar chomhaid chun treoirlínte maidir le soiléireacht cainte, leibhéil torainn, cruinneas meiteashonraí, agus fíorú cainteoir a chomhlíonadh. Bhí ar chlibeáil meiteashonraí a bheith cruinn ar fud na gcomhad go léir, agus seiceáladh gach taifead le haghaidh ailíniú an chainteora agus an tsuímh.
Dúshláin a Réitíomar
- Loighistic cianda – Foirne a bhainistiú ar fud 80 ceantar
- Éagsúlacht cainteoir – 32,000+ cainteoirí fíoraithe a chur ar bord in áiteanna iargúlta
- Íogaireacht chultúrtha – Meas ar nósanna agus canúintí áitiúla
- Sláine sonraí – Caighdeáin cháilíochta agus chomhlíonta a chomhlíonadh
- Rialú Cáilíochta – trasna comhthéacsanna iomadúla teanga agus cultúrtha
Tharla ár rathúlacht mar gheall ar phleanáil mhionchúiseach, bailíochtú faoi stiúir na teicneolaíochta, agus comhpháirtíochtaí le foirne áitiúla a thuig nuances cultúrtha gach réigiúin.
Tionchar agus Feidhmchláir
Ní hamháin gur chuir ranníocaíocht Shaip dlús le dul chun cinn Project Vaani ach leag sé an bonn le haghaidh AI cuimsitheach san India freisin. Tá an tacar sonraí cainte coimeádta á úsáid cheana féin chun samhlacha AI a chruthú agus a mhionchoigeartú le haghaidh:
- Cúntóirí gutha dúchasacha
- Innill aistriúcháin réigiúnacha
- Uirlisí cumarsáide inrochtana do dhaoine lagamhairc
- Ardáin edtech faoi stiúir AI do mhic léinn tuaithe
- Teileleighis tuaithe
- Seirbhísí do shaoránaigh atá bunaithe ar ghuthú
- Aistriúchán agus trascríobh fíor-ama
Conclúid
Is céim dhána é Project Vaani i dtreo AI cuimsitheach, inrochtana - agus is mór an onóir do Shaip ról bunúsach a bheith aige. Athdhearbhaíonn obair Shaip ar Thionscadal Vaani ár dtiomantas do chórais AI eiticiúla uilechuimsitheacha a thógáil atá fréamhaithe san éagsúlacht agus san ionadaíocht. Agus breis agus 8,000 uair an chloig cainte bailithe agus 800 uair an chloig tras-scríofa, táimid bródúil as a bheith páirteach i gceann de na tionscadail chuimsithe dhigitigh is físiúla san India.
Agus Project Vaani ag leanúint ar aghaidh i dtreo a sprioc níos mó de 150,000+ uair an chloig de shonraí, táimid réidh chun tacú leis an gcéad teorainn eile de nuálaíocht AI a labhraíonn - agus ar son - gach Indiach.
Ar mhaith leat dul i gcomhpháirtíocht linn chun AI a thógáil a thuigeann an saol fíor? www.shaip.com