Sainmhíniú
Is éard atá i gceist le bailiú sonraí téacs ná próiseas chun teanga scríofa a bhailiú ó fhoinsí ar nós leabhar, suíomhanna gréasáin, nó logaí comhrá lena húsáid in oiliúint AI.
Cuspóir
Is é an cuspóir corpúis a chruthú le haghaidh forbairt NLP agus LLM.
Tábhacht
- Soláthraíonn sé amhábhar do mhúnlaí teanga.
- Ardaíonn sé saincheisteanna cóipchirt agus ceadúnaithe.
- Bíonn tionchar ag éagsúlacht sonraí ar chothroime agus ar chruinneas.
- Ní mór ábhar díobhálach nó neamhábhartha a scagadh.
Conas a Oibríonn sé
- Aithin foinsí téacs (gréasán, doiciméid, trascríbhinní).
- Téacs a chraoladh nó a scríobadh le cead.
- Glan agus normalú ábhar.
- Stóráil le meiteashonraí le haghaidh inrianaitheachta.
- Úsáid i réamh-oiliúint nó i bhfíneáil.
Samplaí (Saol Réadach)
- Crawláil Choitianta: corpas mór gréasáin.
- Dumpálacha Vicipéide: tacar sonraí téacs struchtúrtha.
- BooksCorpus: a úsáidtear le haghaidh oiliúint BERT.
Tagairtí / Tuilleadh Léitheoireachta
- Fondúireacht Crawl Choiteann.
- Jurafsky & Martin. Próiseáil Urlabhra agus Teanga.
- ISO/IEC TR 20547-5: Ailtireacht Tagartha Mórshonraí.
- Bailiú Sonraí Téacs Cás-shonrach