Sainmhíniú
Is éard atá i gceist le bailiú sonraí intleachta saorga ná próiseas chun sonraí amha a bhailiú—téacs, fuaim, íomhánna, físeán, nó taifid struchtúrtha—a úsáidtear chun samhlacha foghlama meaisín a oiliúint, a bhailíochtú agus a thástáil. Cinntíonn sé go bhfuil samplaí ionadaíocha den fhadhb fíorshaoil ag samhlacha.
Cuspóir
Is é an cuspóir tacair sonraí a thógáil a chuireann ar chumas halgartaim patrúin a fhoghlaim go héifeachtach. Laghdaíonn bailiú sonraí iontaofa claontacht agus feabhsaíonn sé cruinneas an mhúnla ar fud timpeallachtaí agus daonraí éagsúla.
Tábhacht
- Bíonn tionchar díreach ag cáilíocht na sonraí a bhailítear ar thorthaí an mhúnla.
- Is féidir le drochbhailiúchán samhlacha claonta nó neamh-inúsáidte a bheith mar thoradh air.
- Feabhsaíonn foinsí éagsúla inchineálaitheacht agus laghdaíonn siad éagóra.
- Ní mór cloí le caighdeáin eiticiúla agus dlíthiúla (e.g., GDPR, HIPAA).
Conas a Oibríonn sé
- Sainmhínigh an cineál sonraí atá ag teastáil bunaithe ar spriocanna an tionscadail.
- Sainaithin foinsí (braiteoirí, APIanna, suirbhéanna, taifeadtaí, srl.).
- Bailigh sonraí le toiliú cuí agus le cosaintí príobháideachta.
- Stóráil sonraí le meiteashonraí ar mhaithe le hinrianaitheacht agus comhthéacs.
- Ullmhaigh sonraí le haghaidh anótála, glantacháin nó oiliúna níos déanaí.
Samplaí (Saol Réadach)
- ImageNet: tacar sonraí íomhá ar scála mór le haghaidh taighde fís ríomhaireachta.
- Google Street View: sonraí a bhailítear le haghaidh léarscáileanna agus intleacht shaorga amhairc.
- Mozilla Common Voice: tacar sonraí oscailte de thaifeadtaí cainte le haghaidh ASR.
Tagairtí / Tuilleadh Léitheoireachta
- Bileoga Sonraí do Thacair Sonraí — Gebru et al., ACM FAccT.
- Ullmhú Sonraí do Chórais Intleachta Saorga — NIST.
- ISO/IEC TR 20547-5: Ailtireacht Tagartha Mórshonraí — ISO.