Cás-Staidéar: AI Comhrá

Níos mó ná 3k uair an chloig de Shonraí Bailithe, Deighilte & Tras-scríofa chun ASR a thógáil in 8 dteanga Indiach

Bailiúchán cainte
Tá sé mar aidhm ag an rialtas rochtain éasca a bheith ag a shaoránaigh ar sheirbhísí idirlín & digiteacha ina dteanga dhúchais féin trí Thionscadal Bhashini.

Is cuid ríthábhachtach de thionscnamh na hIndia Digiteach é BHASHINI, ardán aistriúcháin teanga India-tiomáinte.

Deartha chun uirlisí Faisnéise Saorga (AI) agus Próiseáil Teanga Nádúrtha (NLP) a sholáthar do MSMEanna, gnólachtaí nuathionscanta agus nuálaithe neamhspleácha, feidhmíonn ardán Bhashini mar acmhainn phoiblí. Is é an sprioc atá aige ná cuimsiú digiteach a chur chun cinn trí shaoránaigh Indiacha a chumasú chun idirghníomhú le tionscnaimh dhigiteacha na tíre ina dteangacha dúchais.

Ina theannta sin, tá sé mar aidhm aige infhaighteacht an ábhair idirlín i dteangacha Indiach a mhéadú go suntasach. Tá sé seo dírithe go háirithe ar réimsí leasa phoiblí mar rialachas agus polasaí, eolaíocht agus teicneolaíocht, etc. Dá bharr sin, spreagfaidh sé seo saoránaigh chun an t-idirlíon a úsáid ina dteanga féin, ag cur chun cinn a rannpháirtíocht ghníomhach.

Leas a bhaint as NLP chun éiceachóras ilghnéitheach ranníocóirí, eintitis chomhpháirtíochta agus saoránaigh a chumasú chun bacainní teanga a shárú, agus ar an gcaoi sin cuimsiú digiteach & cumasú a chinntiú

Réiteach Fíor-Domhain

An Chumhacht Logánaithe le Sonraí a Scaoileadh

Bhí ardán ag teastáil ón India a dhíreodh ar thacair sonraí ilteangacha agus réitigh teicneolaíochta teanga bunaithe ar AI a chruthú chun seirbhísí digiteacha a sholáthar i dteangacha Indiacha. Chun an tionscnamh seo a sheoladh, chuaigh Institiúid Teicneolaíochta na hIndia, Madras (IIT Madras) i gcomhpháirtíocht le Shaip chun tacair sonraí teanga Indiach a bhailiú, a dheighilt agus a thrascríobh chun samhlacha cainte ilteangacha a thógáil.

Dúshláin

Chun cabhrú leis an gcliant lena n-treochlár cainte Teicneolaíocht Urlabhra do theangacha Indiacha, bhí ar an bhfoireann líon mór sonraí oiliúna a fháil, a dheighilt agus a thrascríobh chun samhail AI a thógáil. Ba iad riachtanais ríthábhachtacha an chliaint:

Bailiú Sonraí

  • Faigh 3000 uair an chloig de shonraí oiliúna in 8 dteanga Indiach le 4 chanúint in aghaidh na teanga.
  • I gcás gach teanga, baileoidh an soláthraí Extempore Speech agus
    Óráid Chomhrá ó Aoisghrúpaí 18-60 bliain
  • Meascán ilghnéitheach cainteoirí a chinntiú de réir aoise, inscne, oideachais & canúintí
  • Meascán éagsúil de thimpeallachtaí taifeadta a chinntiú de réir na Sonraíochtaí.
  • Beidh gach taifeadadh fuaime ar a laghad 16kHz ach de rogha ar 44kHz

Deighilt Sonraí

  • Cruthaigh míreanna cainte 15 soicind & stampa ama ar an bhfuaim go dtí na milleasoicindí do gach cainteoir ar leith, cineál fuaime (óráid, babble, ceol, torann), casadh, cainteanna, & frásaí i gcomhrá
  • Cruthaigh gach teascán dá chomhartha fuaime spriocdhírithe le stuáil 200-400 milleasoicind ag tús agus ag deireadh.
  • I gcás gach deighleog, ní mór na cuspóirí seo a leanas a líonadh .i. Am Tosaigh, Am Deiridh, Aitheantas Deighleog, Leibhéal Glóra, Cineál Fuaime, Cód Teanga, Aitheantas Cainteoir, etc.

Tras-scríobh Sonraí

  • Lean na treoirlínte um thrascríobh sonraí maidir le Carachtair agus Siombailí Speisialta, Litriú agus Gramadach, Caipitliú, Giorrúcháin, Crapthaí, Litreacha Aonair Labhartha, Uimhreacha, Poncaíochtaí, Acrainmneacha, Aislíon, Urlabhra, Urlabhra Dothuigthe, Teangacha Neamh-Sprioc, Neamh-Urlabhra etc.

Seiceáil Cáilíochta & Aiseolas

  • Déanfar measúnú agus bailíochtú cáilíochta ar gach taifead, gan ach óráid bhailíochtaithe le tabhairt

réiteach

Agus ár dtuiscint dhomhain ar AI comhráite, chuidíomar leis an gcliant na sonraí a bhailiú, a dheighilt agus a thrascríobh le foireann de shainbhailitheoirí, teangeolaithe agus nótaíadóirí chun corpas mór tacar sonraí fuaime a thógáil in 8 dteanga Indiach.

Áiríodh le raon feidhme na hoibre do Shaip, ach ní raibh sé teoranta dó, líon mór sonraí oiliúna fuaime a fháil, na taifeadtaí fuaime a dheighilt ina n-iliomad, na sonraí a thras-scríobh agus comhaid JSON comhfhreagracha a sheachadadh ina bhfuil na meiteashonraí [SpeakerID, Age, Inscne, Language, Canúint,
Máthairtheanga, Cáilíocht, Slí Bheatha, Fearann, Formáid Chomhaid, Minicíocht, Cainéal, Cineál Fuaime, Líon cainteoirí, Líon Teangacha Iasachta, Socrú a Úsáidtear, Fuaim Bhanda Caol nó Leathanbhanda, etc.]. 

Bhailigh Shaip 3000 uair an chloig de shonraí fuaime ar scála agus ag an am céanna na leibhéil cháilíochta a theastaíonn chun teicneolaíocht cainte a oiliúint do thionscadail chasta a choinneáil. Tógadh Foirm Toilithe Sonraithe ó gach rannpháirtí.

1. Bailiú Sonraí