Cás-Staidéar: AI Comhrá

Níos mó ná 3k uair an chloig de Shonraí Bailithe, Deighilte & Tras-scríofa chun ASR a thógáil in 8 dteanga Indiach
Comhrá ai
Tá sé mar aidhm ag an rialtas rochtain éasca a bheith ag a shaoránaigh ar sheirbhísí idirlín & digiteacha ina dteanga dhúchais féin trí Thionscadal Bhashini.

Is cuid ríthábhachtach de thionscnamh na hIndia Digiteach é BHASHINI, ardán aistriúcháin teanga India-tiomáinte.

Deartha chun uirlisí Faisnéise Saorga (AI) agus Próiseáil Teanga Nádúrtha (NLP) a sholáthar do MSMEanna, gnólachtaí nuathionscanta agus nuálaithe neamhspleácha, feidhmíonn ardán Bhashini mar acmhainn phoiblí. Is é an sprioc atá aige ná cuimsiú digiteach a chur chun cinn trí shaoránaigh Indiacha a chumasú chun idirghníomhú le tionscnaimh dhigiteacha na tíre ina dteangacha dúchais.

Ina theannta sin, tá sé mar aidhm aige infhaighteacht an ábhair idirlín i dteangacha Indiach a mhéadú go suntasach. Tá sé seo dírithe go háirithe ar réimsí leasa phoiblí mar rialachas agus polasaí, eolaíocht agus teicneolaíocht, etc. Dá bharr sin, spreagfaidh sé seo saoránaigh chun an t-idirlíon a úsáid ina dteanga féin, ag cur chun cinn a rannpháirtíocht ghníomhach.

Réiteach Fíor-Domhain

An Chumhacht Logánaithe le Sonraí a Scaoileadh

Bhí ardán ag teastáil ón India a dhíreodh ar thacair sonraí ilteangacha agus réitigh teicneolaíochta teanga bunaithe ar AI a chruthú chun seirbhísí digiteacha a sholáthar i dteangacha Indiacha. Chun an tionscnamh seo a sheoladh, chuaigh Institiúid Teicneolaíochta na hIndia, Madras (IIT Madras) i gcomhpháirtíocht le Shaip chun tacair sonraí teanga Indiach a bhailiú, a dheighilt agus a thrascríobh chun samhlacha cainte ilteangacha a thógáil.

Dúshláin

Chun cabhrú leis an gcliant lena n-treochlár cainte Teicneolaíocht Urlabhra do theangacha Indiacha, bhí ar an bhfoireann líon mór sonraí oiliúna a fháil, a dheighilt agus a thrascríobh chun samhail AI a thógáil. Ba iad riachtanais ríthábhachtacha an chliaint:

Bailiú Sonraí

  • Faigh 3000 uair an chloig de shonraí oiliúna in 8 dteanga Indiach le 4 chanúint in aghaidh na teanga.
  • I gcás gach teanga, baileoidh an soláthraí Extempore Speech agus
    Óráid Chomhrá ó Aoisghrúpaí 18-60 bliain
  • Meascán ilghnéitheach cainteoirí a chinntiú de réir aoise, inscne, oideachais & canúintí
  • Meascán éagsúil de thimpeallachtaí taifeadta a chinntiú de réir na Sonraíochtaí.
  • Beidh gach taifeadadh fuaime ar a laghad 16kHz ach de rogha ar 44kHz

Deighilt Sonraí

  • Cruthaigh míreanna cainte 15 soicind & stampa ama ar an bhfuaim go dtí na milleasoicindí do gach cainteoir ar leith, cineál fuaime (óráid, babble, ceol, torann), casadh, cainteanna, & frásaí i gcomhrá
  • Cruthaigh gach teascán dá chomhartha fuaime spriocdhírithe le stuáil 200-400 milleasoicind ag tús agus ag deireadh.
  • I gcás gach deighleog, ní mór na cuspóirí seo a leanas a líonadh .i. Am Tosaigh, Am Deiridh, Aitheantas Deighleog, Leibhéal Glóra, Cineál Fuaime, Cód Teanga, Aitheantas Cainteoir, etc.

Tras-scríobh Sonraí

  • Lean na treoirlínte um thrascríobh sonraí maidir le Carachtair agus Siombailí Speisialta, Litriú agus Gramadach, Caipitliú, Giorrúcháin, Crapthaí, Litreacha Aonair Labhartha, Uimhreacha, Poncaíochtaí, Acrainmneacha, Aislíon, Urlabhra, Urlabhra Dothuigthe, Teangacha Neamh-Sprioc, Neamh-Urlabhra etc.

Seiceáil Cáilíochta & Aiseolas

  • Déanfar measúnú agus bailíochtú cáilíochta ar gach taifead, gan ach óráid bhailíochtaithe le tabhairt

réiteach

Agus ár dtuiscint dhomhain ar AI comhráite, chuidíomar leis an gcliant na sonraí a bhailiú, a dheighilt agus a thrascríobh le foireann de shainbhailitheoirí, teangeolaithe agus nótaíadóirí chun corpas mór tacar sonraí fuaime a thógáil in 8 dteanga Indiach.

Áiríodh le raon feidhme na hoibre do Shaip, ach ní raibh sé teoranta dó, líon mór sonraí oiliúna fuaime a fháil, na taifeadtaí fuaime a dheighilt ina n-iliomad, na sonraí a thras-scríobh agus comhaid JSON comhfhreagracha a sheachadadh ina bhfuil na meiteashonraí [SpeakerID, Age, Inscne, Language, Canúint,
Máthairtheanga, Cáilíocht, Slí Bheatha, Fearann, Formáid Chomhaid, Minicíocht, Cainéal, Cineál Fuaime, Líon cainteoirí, Líon Teangacha Iasachta, Socrú a Úsáidtear, Fuaim Bhanda Caol nó Leathanbhanda, etc.].

Bhailigh Shaip 3000 uair an chloig de shonraí fuaime ar scála agus ag an am céanna na leibhéil cháilíochta a theastaíonn chun teicneolaíocht cainte a oiliúint do thionscadail chasta a choinneáil. Tógadh Foirm Toilithe Sonraithe ó gach rannpháirtí.

1. Bailiú Sonraí

2. Deighilt Sonraí

  • Rinneadh na sonraí fuaime a bailíodh a roinnt níos faide isteach i míreanna cainte 15 soicind an ceann agus stampáladh iad go dtí na milleasoicindí do gach cainteoir ar leith, cineál fuaime, casadh, cainteanna agus frásaí i gcomhrá
  • Cruthaíodh gach deighleog dá chomhartha fuaime spriocdhírithe le stuáil 200-400 milleasoicindí ag tús agus ag deireadh comhartha fuaime.
  • I gcás gach deighleog, bhí na réada seo a leanas i láthair agus líonta .i. Am Tosaigh, Am Deiridh, Aitheantas Deighleog, Leibhéal Glóra (Ard, Gnáth, Ciúin), Príomhchineál Fuaime (Urlabhra, Babble, Ceol, Torann, Forluí), Cainteoir Cód Teanga ID, Trascríobh srl.

3. Seiceáil Cáilíochta agus Aiseolas

  • Rinneadh measúnú ar gach taifead le haghaidh cáilíochta agus níor seachadadh ach taifeadtaí cainte bailí le WER de 90% agus TER de 90%.
  • Seicliosta Cáilíochta ina dhiaidh:
    » 15 soicind ar a mhéad d’fhad míre
    » Trascríobh ó réimsí ar leith, mar atá: Aimsir, cineálacha éagsúla nuachta, sláinte, talmhaíocht, oideachas, poist nó airgeadas
    » Torann íseal sa chúlra
    » Níl gearrthóg fuaime múchta – Gan aon saobhadh
    » Deighilt fuaime ceart le haghaidh trascríobh

4. Trascríobh Sonraí
Gabhadh gach focal labhartha, lena n-áirítear leisce, focail líonta, tús bréagach, agus tics briathartha eile, go cruinn sa tras-scríobh. Leanamar freisin treoirlínte tras-scríobh sonraí maidir le litreacha móra agus litreacha beaga, litriú, caipitlithe, giorrúcháin, crapthaí, uimhreacha,
poncaíocht, Acrainmneacha, Urlabhra Eascrach, torainn neamhurlabhra srl. Ina theannta sin tá an Sreabhadh Oibre a lean do Bhailiúchán agus Trascríobh mar atá thíos:

Toradh

Cuirfidh na sonraí fuaime ardchaighdeáin ó shaintheangeolaithe ar chumas Institiúid Teicneolaíochta na hIndia – Madras, samhlacha ilteangacha Aitheantas Cainte a thraenáil agus a thógáil go beacht in 8 dteanga Indiach le canúintí éagsúla san am sonraithe. Is féidir na samhlacha aitheantais cainte a úsáid chun:

  • Bacainn teanga ar chuimsiú digiteach a shárú trí na saoránaigh a nascadh leis na tionscnaimh ina máthairtheanga féin.
  • Cuireann Rialachas Digiteach chun cinn
  • Catalaíoch chun éiceachóras a chruthú le haghaidh seirbhísí agus táirgí i dteangacha Indiacha
  • Ábhar digiteach níos logánta i réimsí leasa an phobail, go háirithe rialachas agus beartas
Órga-5-réalta

Chuaigh saineolas Shaip i spás comhráite AI i bhfeidhm orainn. A n-inniúlacht fhoriomlán maidir le cur i gcrích an tionscadail ó fhoinsiú, ó dheighilt, ó thras-scríobh agus ó sheachadadh na sonraí oiliúna riachtanacha ó shaintheangeolaithe in 8 dteanga laistigh de línte ama agus treoirlínte dochta; agus an caighdeán cáilíochta inghlactha á chothabháil ag an am céanna.”

Luathaigh d’fhorbairt feidhmchlár Conversational AI 100%

Cliaint Réadmhaoin

Foirne a chumhachtú chun táirgí AI den scoth a thógáil.