AI Comhrá: Aitheantas Urlabhra Uathoibríoch

Níos mó ná 8k uair an chloig Fuaime Bailithe, 800 uair an chloig Tras-scríofa le haghaidh Teicneolaíocht Ilteangach Gutha

Comhrá ai

Réamhrá

Bhí ardán ag teastáil ón India a dhírigh ar thacair sonraí ilteangacha agus réitigh teicneolaíochta teanga bunaithe ar AI a chruthú chun seirbhísí digiteacha a sholáthar i dteangacha Indiacha. Chun an tionscnamh seo a sheoladh, chuaigh an Cliant i gcomhpháirtíocht le Shaip chun teanga Indiach a bhailiú, agus a thrascríobh chun samhlacha cainte ilteangacha a thógáil.

Imleabhar

Uaireanta na Sonraí a Bailíodh
10
Líon na Leathanaigh Anótáilte
10 +
Fad an Tionscadail
< 1 mhí

Dúshláin

Chun cabhrú leis an gcliant lena n-treochlár cainte Teicneolaíocht Urlabhra do theangacha Indiacha, bhí ar an bhfoireann líon mór sonraí oiliúna a fháil, a dheighilt agus a thrascríobh chun samhail AI a thógáil. Ba iad riachtanais chriticiúla an chliaint:

Bailiú Sonraí

  • Faigh 8000 uair an chloig de shonraí oiliúna ó áiteanna iargúlta san India
  • An soláthraí chun caint spontáineach a bhailiú ó Aoisghrúpaí 20-70 bliain
  • Meascán ilghnéitheach cainteoirí a chinntiú de réir aoise, inscne, oideachais agus canúintí
  • Beidh gach taifeadadh fuaime ar a laghad 16kHz agus 16 ghiotán/sampla.
Sonraí a bhailiú

Tras-scríobh Sonraí

Lean na treoirlínte um thrascríobh sonraí maidir le Carachtair agus Siombailí Speisialta, Litriú agus Gramadach, Caipitliú, Giorrúcháin, Crapthaí, Litreacha Aonair Labhartha, Uimhreacha, Poncaíochtaí, Acrainmneacha agus Túslitreacha, Urlabhra Easaontach, Urlabhra Dothuigthe, Teangacha Neamh-Sprioc, Neamh-Urlabhra

Trascríobh sonraí

Seiceáil Cáilíochta & Aiseolas

Déanfar measúnú agus bailíochtú cáilíochta ar gach taifead, gan ach taifeadtaí bailíochtaithe cainte a sheachadadh

réiteach

Agus ár dtuiscint dhomhain ar AI comhráite, chabhraigh muid leis an gcliant na sonraí fuaime a bhailiú, a thras-scríobh le foireann de bhailitheoirí saineolaithe, teangeolaithe agus nótaíadóirí chun corpas mór sonraí fuaime a thógáil ó áiteanna iargúlta na hIndia.

Áiríodh le raon feidhme na hoibre do Shaip, ach ní raibh sé teoranta dó, méideanna móra sonraí oiliúna fuaime a fháil, na sonraí a thras-scríobh agus comhaid JSON comhfhreagracha a sheachadadh ina bhfuil na meiteashonraí [do chainteoirí agus tras-scríobhaithe araon. I gcás gach cainteoir, cuimsíonn na meiteashonraí Aitheantas Cainteoir gan ainm, sonraí gléis, faisnéis dhéimeagrafach amhail inscne, aois, agus oideachas, mar aon lena pincode, stádas socheacnamaíoch, na teangacha a labhraítear, agus taifead ar fhad a saoil. I gcás gach tras-scríofa, ionchorpraíonn na sonraí ID Transcriber gan ainm, sonraí déimeagrafacha cosúil le sonraí na gcainteoirí, fad a n-eispéireas trascríobh, agus miondealú críochnúil ar na teangacha is féidir leo a léamh, a scríobh agus a labhairt.

Shaip bailithe 8000 uaireanta de shonraí fuaime / Urlabhra spontáineach ar scála agus tras-scríofa 800 uair an chloig agus ag an am céanna na leibhéil cháilíochta inmhianaithe a theastaíonn chun teicneolaíocht cainte a oiliúint do thionscadail chasta a choinneáil. Tógadh Foirm Toilithe Sonraithe ó gach rannpháirtí. Bhí an / óráid spontáineach a bailíodh bunaithe ar íomhánna a chuir an Ollscoil ar fáil. As 3500 pictiúir 1000 atá cineálach agus 2500 a bhaineann le cultúr sainiúil ceantair, féilte, etc. Léiríonn íomhánna réimsí éagsúla cosúil le stáisiúin traenach, margaí, aimsir, agus go leor eile.

Bailiú Sonraí

StáitCeantairUaireanta Fuaimetrascríobh
(Uaireanta)
BiharSaran, Champaran Thoir, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
UttarpradeshDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
West EuropePaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, Thuaidh 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
goaGoa Thuaidh+Theas10010
KarnatakaDakshin Cannadais, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
MaharashtraSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Iomlán8000800

Treoirlínte Ginearálta

déanta

    • Fuaime ag 16 kHz, 16 giotán/sampla.
    • Cainéal aonair.
    • Fuaime amh gan traschódú.

stíl

    • Óráid spontáineach.
    • Pianbhreitheanna bunaithe ar íomhánna Ollscoile. As 3500 íomhá, tá 1000 cineálach agus baineann 2500 le cultúr a bhaineann go sonrach le ceantair, féilte, etc. Léiríonn íomhánna réimsí éagsúla cosúil le stáisiúin traenach, margaí, aimsir, agus go leor eile.

Cúlra Taifeadta

    • Taifeadta i dtimpeallacht chiúin, saor ó mhacalla.
    • Gan aon suaitheadh ​​ar an bhfón cliste (creathadh ná fógraí) le linn taifeadta.
    • Gan aon saobhadh ar nós bearradh nó éifeachtaí i bhfad i gcéin.
    • Creathadh ó ghuthán do-ghlactha; tá creathadh seachtracha inghlactha má tá an fhuaim soiléir.

Sonraíocht Cainteora

    • Raon aoise 20-70 bliain le dáileadh cothrom inscne in aghaidh an cheantair.
    • 400 cainteoir dúchais ar a laghad i ngach ceantar.
    • Ba cheart do chainteoirí a dteanga baile/chanúint a úsáid.
    • Foirmeacha toilithe éigeantach do gach rannpháirtí.


Seiceáil Cáilíochta & Dearbhú Cáilíochta Criticiúil

Tugann an próiseas QA tús áite do dhearbhú cáilíochta do thaifeadtaí fuaime agus tras-scríbhinní. Díríonn caighdeáin fuaime ar chiúnas beachta, fad na míre, soiléireacht aon chainteora, agus meiteashonraí mionsonraithe lena n-áirítear aois agus stádas socheacnamaíoch. Leagann critéir trascríobh béim ar chruinneas na gclibeanna, ar fhírinneacht na bhfocal, agus ar mhionsonraí cearta na míre. De réir an tagarmhairc glactha, má theipeann ar níos mó ná 20% de bhaisc fuaime na caighdeáin seo, diúltaítear dó. I gcás neamhréireachtaí níos lú ná 20%, tá gá le taifeadtaí athsholáthair le próifílí comhchosúla.

Tras-scríobh Sonraí

Leagann treoirlínte trascríobh béim ar chruinneas agus ar thrascríobh focal ar fhocal ach amháin nuair atá focail soiléir agus intuigthe; marcáiltear focail doiléir mar [dothuigthe] nó [dothuigthe] bunaithe ar an gceist. Marcáiltear teorainneacha abairtí i bhfuaim fhada , agus ní cheadaítear aon athinsint ná ceartú ar earráidí gramadaí. Clúdaíonn trascríobh focal ar fhocal earráidí, slangs, agus athrá ach fágtar ar lár túsanna bréagacha, fuaimeanna filler, agus stutters. Trascríobhtar torainn chúlra agus tulra le clibeanna tuairisciúla, agus leanann ainmneacha cearta, teidil agus uimhreacha sainrialacha trascríobh. Úsáidtear lipéid chainteora do gach abairt, agus cuirtear abairtí neamhiomlána in iúl le.

Sreabhadh Oibre Tionscadail

Déanann an sreabhadh oibre cur síos ar an bpróiseas trascríobh fuaime. Tosaíonn sé le dul ar bord agus rannpháirtithe oiliúna. Taifeadann siad fuaime ag baint úsáide as aip, a uaslódáiltear chuig ardán QA. Déantar seiceálacha cáilíochta agus deighilt uathoibríoch ar an bhfuaim seo. Ansin ullmhaíonn an fhoireann teicneolaíochta míreanna le haghaidh tras-scríobh. Tar éis trascríobh láimhe, tá céim dearbhaithe cáilíochta ann. Seachadtar trascríbhinní chuig an gcliant, agus má ghlactar leo, meastar go bhfuil an seachadadh críochnaithe. Mura bhfuil, déantar athbhreithnithe bunaithe ar aiseolas ó chliaint.

Toradh

Cuirfidh na sonraí fuaime ardcháilíochta ó shaintheangeolaithe ar chumas ár gcliant samhlacha ilteangacha Aitheantas Cainte a thraenáil go cruinn agus a thógáil i dteangacha éagsúla Indiacha le canúintí éagsúla san am sonraithe. Is féidir na samhlacha aitheantais cainte a úsáid chun:

  • Bacainn teanga ar chuimsiú digiteach a shárú trí na saoránaigh a nascadh leis na tionscnaimh ina máthairtheanga féin.
  • Cuireann Rialachas Digiteach chun cinn
  • Catalaíoch chun éiceachóras a chruthú le haghaidh seirbhísí agus táirgí i dteangacha Indiacha
  • Ábhar digiteach níos logánta i réimsí leasa an phobail, go háirithe rialachas agus beartas

Is cúis iontais dúinn saineolas Shaip sa réimse comhráite AI. Ba mhór an tasc é láimhseáil 8000 uair an chloig de shonraí fuaime mar aon le 800 uair an chloig de thrascríobh thar 80 ceantar éagsúil, a rá a laghad. Ba é an tuiscint dhomhain a bhí ag Shaip ar mhionsonraí casta agus ar mhiondifríochtaí an fhearainn seo a d’fhág gur féidir tionscadal chomh dúshlánach a chur i gcrích go rathúil. Is fíor-inmholta an cumas atá acu bainistiú a dhéanamh gan uaim agus dul tríd na castachtaí a bhaineann leis an méid ollmhór sonraí seo agus cáilíocht den scoth á chinntiú.

Órga-5-réalta

Luathaigh do AI Comhrá
forbairt feidhmchlár 100%